Zoekmachine optimalisatie, betere positie in google
ofwel
Zoekmachine positie en vindbaarheid verbeteren in de SERPs.

Introductie (Home)

Basis benodigheden

Goals en Ethiek

Veel Geduld Nodig

Website Leeftijd

Googlebot Bezoek

Google's Indexering

Google's Instabiliteit

Supplemental Index

W3C validatie

Googlebot Detectie

Google Account

Zoekmachine Optimalisatie

Teller op je Website

Page Rank (PR)

Last-Modified

Sitemaps

Robots.txt

Frames en Fabels

Hoe Zoekt Google

Link Populariteit

Resultaten

27-juli-2007 geschreven. Bijgewerkt: 29 dec.
Een ervaringsverhaal over zoekmachine optimalisatie voor beginnende websites. Doe je voordeel ermee.

SITEMAP.XML, ROR.XML en URLLIST.TXT:

Spiders schijnen bij voorkeur gebruik te maken van sitemaps. Google heeft daar sitemap.xml voor geÔntroduceerd, Yahoo urllist.txt en algemeen bestaat er ook de ror.xml sitemap. Een uitstekend programma om een sitemap.xml te genereren is b.v. het gratis programma van gsitecrawler en het programma houdt rekening met de uitsluitingen in de robot.txt file. Zorg ervoor dat ook het file'tje gss.xsl op de server komt te staan, omdat de zoekmachine anders het gsitecrawler formaat mogelijk niet goed vertaald. Test het resultaat door domeinnaam/sitemap.xml uit te proberen en kijk of de sitemap netjes wordt gepresenteerd in je browser. Sitemap.xml staat op de zelfde plaats als je index.html (php) startpagina. Mijn advies is om alleen de parameters <loc> en <lastmod> in te (laten) vullen en <priority> en <change freq> parameters weg te laten (uitzetten in het programma). De googlebot trekt toch zijn eigen conclusies a.d.h.v. wat er werkelijk gebeurt en gebruikt niet op voorhand de parameters. Van de parameter <lastmod> heb ik nog zo mijn twijfels. De parameters hebben vooral invloed in de zin van alles een lagere prioriteit geven en een lagere bezoekfrequentie dan wat de googlebot default van plan is. Dat spaart n.l. bandbreedte. Het invullen van <lastmod> heeft alleen zin als het ook de werkelijke <lastmod> datum betreft. Zo niet laat dat dan ook maar weg. Let daarom op of bij je server de Last-Modified in de header meekomt. Heel veel servers doen dat n.l. niet.

Dit programma maakt ook een urllist.txt aan die Yahoo schijnt te gebruiken. Een feit is dat noch Yahoo noch iemand anders ooit de file urllist.txt heeft opgevraagd het afgelopen jaar bij mijn websites. Yahoo kijkt gewoon naar de ror.xml file maar ook naar de sitemap.xml. Ongeveer 74% van het bezoek is van google en de rest wordt opgedeeld door 100 anderen, waarbij Yahoo een schamele 0,2% bijdraagt, terwijl de grootste na google, MSN (nu LiveSearch), nog geen 1% haalt. Verder is een groot deel van de overige 25% afkomstig van links en niet van zoekmachines. Dus waarom zou je ook maar 1 seconde tijd besteden aan een andere zoekmachine dan google vraag ik me af? Die zijn toch allemaal al dood. Dit is dus gewoon statistiek van 3 websites over een jaar. De nutteloze urllist.txt heb ik inmiddels verwijderd.

Naast de sitemap.xml speciaal voor google, waarbij je dus ook moet zorgen voor een google account, bestaat er een voorheen algemene ror.xml met een soortgelijke functie. Veel zoekmachines kijken naar de ror.xml file die wel gelinked moet staan in de header met: <link rel="alternate" type="application/rss+xml" title="ROR" href="ror.xml" />. Ror.xml wordt opgevraagd door alle belangrijke spiders waaronder Yahoo, LiveSearch en ook Google als je geen sitemap.xml hebt. Heb je wel een sitemap.xml dan zal na verloop van tijd ( 3 maanden schat ik ) de ror.xml door Google niet meer worden opgevraagd. Zowel Yahoo als LiveSearch (MSN) en Ask erkennen nu echter ook het google sitemap.xml protocol. Je moet dat echter dan wel bekend maken in de robots.txt door een regel toe te voegen met de plaats van de sitemap file (sitemap: http://www.mijnwebsite.nl/sitemap.xml ) zoals valt te lezen op googlewebmastercentral.blogspot en op sitemaps.org. Je google account bevestigd ook specifiek of deze (nieuwe) regel goed staat vermeldt in de robots.txt.

Zie voor ror.xml rorweb.com. Er is hier een online ror.xml generator die ook overal elders op internet gekopieŽerd is terug te vinden. Er is ook een versie voor lokaal gebruik te downloaden. De generator houdt echter niet op een juiste manier rekening met de robots.txt inhoud. Daardoor komen er files in terecht die je niet wilt zien. Kortom ik moet de ror.xml altijd controleren en met de hand bijwerken en er soms tientallen links uit verwijderen, die door de robots.txt waren uitgesloten. De generator volgt n.l. links die in de files zelf genoemd staan om vervolgens in de uitgesloten directories allerlei files te gaan inventariseren. Nu de sitemap.xml wordt erkend door de belangrijkste zoekmachines is de ror.xml file naar ik meen ook overbodig geworden. Implementatie van de sitemap.xml regel in de robots.txt file liet onmiddelijk zien dat zowel Yahoo en LiveSearch nu ook de sitemap.xml lezen. Volgens mij is ror.xml inmiddels achterhaald door de google sitemap. Er zijn nog een paar onbelangrijke zoekmachines die er naar kijken. Inmiddels heb ik zelf alle ror.xml files verwijderd.

De echte toegevoegde waarde van de sitemap.xml als zodanig heb ik nog niet helemaal ontdekt..... , maar misschien komt dat nog. Normaal worden alle pagina's toch al (en vaak eerder) gevonden door de interne links die je zelf plaatst.
email:robvh@onsnet.nu

Valid XHTML 1.0!
introductie | basis_benodigdheden | goals_en_ethiek | veel_geduld_nodig | website_leeftijd | googlebot_bezoek | google's_indexering | google's_instabiliteit | supplemental_index | w3c_validiteit | googlebot_detectie | google_account | zoekmachine_optimalisatie | teller_op_je_website | page_rank | last_modified | sitemaps | robots.txt | frames_en_fabels | hoe_zoekt_google | link_populariteit | resultaten