Robots.txt bestand en disallow voor
zoekmachine
|
|
|
27-juli-2007 geschreven. Bijgewerkt: 29 dec. Een ervaringsverhaal over zoekmachine optimalisatie voor beginnende websites. Doe je voordeel ermee. ROBOTS.TXT In de robots.txt vermeldt je welke files en directories niet bekeken moeten worden of welke spiders je liever niet ziet. De file bevindt zich op de server in dezelfde directory als de hoofdpagina en het moet een eigen domein zijn of een direct benaderbaar subdomein (niet in een subdirectory!). Hoewel MSN voorheen de robots.txt voorheen negeerde is dit nu sinds het LiveSearch heet ook een goed volger van de robots.txt file. Zover mij bekend houdt iedereen zich hier nu aan. Ik vind geen enkele ongeoorloofde file meer terug op internet. Let wel: de robots.txt sluit nooit iets gegarandeerd uit. Dat kan alleen in de ".htaccess" file. Daar controleer je zelf op de server wie waar mag kijken. Een typische robots.txt van mij is b.v.: User-agent: * Disallow: /music/ Disallow: /illustraties/ Disallow: /bbclone/ Disallow: /test/ sitemap: http://www.mijnwebsite.nl/sitemap.xml Waarbij alle spiders verzocht worden niet te kijken naar de inhoud van de genoemde subdirectories zodat deze files niet worden gecached. Vooral de files van de hele bbclone teller moet je b.v. uitsluiten. Het betreft hier veel files. Het betreft bij bbclone ook privé gegevens over de resultaten van je site, die je misschien niet voor iedereen zichtbaar wilt maken. Het vervuilt de cache resultaten. Verder wil ik zelf ook geen vervuiling met illustraties, foto's en muziek files of inhoud van testjes wat allemaal niets oplevert voor het zoeken. De robots.txt file die alle user-agents verzoekt alles te bekijken ziet er zo uit: User-agent: * Disallow: De robots.txt file die alle user-agents verzoekt niets te bekijken ziet er zo uit: User-agent: * Disallow: / Ster * is maar in enkele gevallen toepasbaar en is feitelijk alleen voor de useragents (bots, spiders) van toepassing. In de praktijk blijken er veel verwarringen over de syntax inhoud van de file te zijn ontstaan. Dit geldt ook voor b.v. de syntax "Allow:" Dit heeft (had) n.l. eigenlijk geen betekenis binnen de robots.txt alhoewel hele volkstammen dat gingen gebruiken. Er zijn echter bots waaronder de googlebot die als gevolg van deze verwarring toch maar sommige van deze zaken wel zijn gaan interpreteren. Dit vergroot alleen maar de verwarring rond dit fenomeen lijkt mij. Immers als sommige zaken bij de ene bot wel tot succes leiden terwijl het niet is afgesproken begrijpt niemand er meer iets van. Let erop dat er een vrije regel komt te staan tussen verschillende User-agents. Wil je dat google alles ziet en de overige spiders niets dan zet je dus: User-agent: googlebot Disallow: User-agent: * Disallow: / Je kunt op je google account vaststellen wat de robots.txt voor resultaat heeft of bij robots-checker de uitkomst checken of lees hoe je checked bij google. |
|
| email:robvh@onsnet.nu
|
|
introductie | basis_benodigdheden | goals_en_ethiek | veel_geduld_nodig | website_leeftijd | googlebot_bezoek | google's_indexering | google's_instabiliteit | supplemental_index | w3c_validiteit | googlebot_detectie | google_account | zoekmachine_optimalisatie | teller_op_je_website | page_rank | last_modified | sitemaps | robots.txt | frames_en_fabels | hoe_zoekt_google | link_populariteit | resultaten |
|