Robots.txt bestand en disallow voor zoekmachine
ofwel
tutorial en syntax voor robots txt en sitemap bij het gevonden worden.

Introductie (Home)

Basis benodigheden

Goals en Ethiek

Veel Geduld Nodig

Website Leeftijd

Googlebot Bezoek

Google's Indexering

Google's Instabiliteit

Supplemental Index

W3C validatie

Googlebot Detectie

Google Account

Zoekmachine Optimalisatie

Teller op je Website

Page Rank (PR)

Last-Modified

Sitemaps

Robots.txt

Frames en Fabels

Hoe Zoekt Google

Link Populariteit

Resultaten

27-juli-2007 geschreven. Bijgewerkt: 29 dec.
Een ervaringsverhaal over zoekmachine optimalisatie voor beginnende websites. Doe je voordeel ermee.

ROBOTS.TXT

In de robots.txt vermeldt je welke files en directories niet bekeken moeten worden of welke spiders je liever niet ziet. De file bevindt zich op de server in dezelfde directory als de hoofdpagina en het moet een eigen domein zijn of een direct benaderbaar subdomein (niet in een subdirectory!). Hoewel MSN voorheen de robots.txt voorheen negeerde is dit nu sinds het LiveSearch heet ook een goed volger van de robots.txt file. Zover mij bekend houdt iedereen zich hier nu aan. Ik vind geen enkele ongeoorloofde file meer terug op internet. Let wel: de robots.txt sluit nooit iets gegarandeerd uit. Dat kan alleen in de ".htaccess" file. Daar controleer je zelf op de server wie waar mag kijken. Een typische robots.txt van mij is b.v.:

User-agent: *
Disallow: /music/
Disallow: /illustraties/
Disallow: /bbclone/
Disallow: /test/
sitemap: http://www.mijnwebsite.nl/sitemap.xml

Waarbij alle spiders verzocht worden niet te kijken naar de inhoud van de genoemde subdirectories zodat deze files niet worden gecached. Vooral de files van de hele bbclone teller moet je b.v. uitsluiten. Het betreft hier veel files. Het betreft bij bbclone ook privé gegevens over de resultaten van je site, die je misschien niet voor iedereen zichtbaar wilt maken. Het vervuilt de cache resultaten. Verder wil ik zelf ook geen vervuiling met illustraties, foto's en muziek files of inhoud van testjes wat allemaal niets oplevert voor het zoeken.

De robots.txt file die alle user-agents verzoekt alles te bekijken ziet er zo uit:
User-agent: *
Disallow:

De robots.txt file die alle user-agents verzoekt niets te bekijken ziet er zo uit:
User-agent: *
Disallow: /

Ster * is maar in enkele gevallen toepasbaar en is feitelijk alleen voor de useragents (bots, spiders) van toepassing. In de praktijk blijken er veel verwarringen over de syntax inhoud van de file te zijn ontstaan.
Dit geldt ook voor b.v. de syntax "Allow:" Dit heeft (had) n.l. eigenlijk geen betekenis binnen de robots.txt alhoewel hele volkstammen dat gingen gebruiken. Er zijn echter bots waaronder de googlebot die als gevolg van deze verwarring toch maar sommige van deze zaken wel zijn gaan interpreteren. Dit vergroot alleen maar de verwarring rond dit fenomeen lijkt mij. Immers als sommige zaken bij de ene bot wel tot succes leiden terwijl het niet is afgesproken begrijpt niemand er meer iets van.
Let erop dat er een vrije regel komt te staan tussen verschillende User-agents. Wil je dat google alles ziet en de overige spiders niets dan zet je dus:

User-agent: googlebot
Disallow:

User-agent: *
Disallow: /

Je kunt op je google account vaststellen wat de robots.txt voor resultaat heeft of bij robots-checker de uitkomst checken of lees hoe je checked bij google.
email:robvh@onsnet.nu

Valid XHTML 1.0!
introductie | basis_benodigdheden | goals_en_ethiek | veel_geduld_nodig | website_leeftijd | googlebot_bezoek | google's_indexering | google's_instabiliteit | supplemental_index | w3c_validiteit | googlebot_detectie | google_account | zoekmachine_optimalisatie | teller_op_je_website | page_rank | last_modified | sitemaps | robots.txt | frames_en_fabels | hoe_zoekt_google | link_populariteit | resultaten