Invloed spider of googlebot bezoek aan website
ofwel
Is de googlebot bezoekfrequentie op de website van invloed de indexering of caching?

Introductie (Home)

Basis benodigheden

Goals en Ethiek

Veel Geduld Nodig

Website Leeftijd

Googlebot Bezoek

Google's Indexering

Google's Instabiliteit

Supplemental Index

W3C validatie

Googlebot Detectie

Google Account

Zoekmachine Optimalisatie

Teller op je Website

Page Rank (PR)

Last-Modified

Sitemaps

Robots.txt

Frames en Fabels

Hoe Zoekt Google

Link Populariteit

Resultaten

27-juli-2007 geschreven. Bijgewerkt: 18 feb. 2008.
Een ervaringsverhaal over zoekmachine optimalisatie voor beginnende websites. Doe je voordeel ermee.

GOOGLEBOT BEZOEK:

Zorg dat je website een google account krijgt (gratis). Daar krijg je veel zinvolle informatie over je website.
Met een google account kun je zorgen dat je website in ieder geval sneller wordt opgenomen + dat google laat zien als er dingen niet deugen. Wat zou je misschien nog meer willen weten voordat je conclusies kan gaan trekken?

1. Wanneer bezoekt de googlebot je pagina's? Daarvoor zet je je een regel op elke webpagina die een bericht stuurt zodra de googlebot de pagina bezoekt, of je bekijkt de access_log file op je server. Die laatste is vaak zeer groot (10-100MB) en daardoor lastig te doorzoeken. Hij is ook niet bij iedere provider eenvoudig toegankelijk.
2. Wanneer zet google de pagina in cache? Je moet dat zelf bijhouden. Type daarvoor bij google zoeken in:
site:www.mijnwebsitenaam.nl (geen spatie na site:). Je krijgt dan al je gecachte pagina's te zien. Het best doe je dat in google.nl en niet in google.com omdat voor nederlandse sites daar de pagina's eerder verschijnen. Als je in de datum van de cache kijkt is dat precies de datum van een googlebot bezoek aan die pagina. LET OP: soms staat ondanks de vermelding dat er een cache is de pagina TOCH NIET IN cache. Open alle caches daarom een keer om te zien welke cache datum er aan hangt. De cache datum hoeft echter helemaal niet met het "laatste googlebot bezoek" over een te stemmen. Vaak zijn de googlebots al vele malen daarna opnieuw langs geweest. De cache datum kan 1 tot 3 maanden achter lopen. Tevens kunnen veel googlebot bezoeken worden overgeslagen zonder dat de cache tussendoor (zichtbaar) is aangepast. Als de googlebot een "If-Modified-Since request" doet en een 304 (Not-Modified) antwoord krijgt en de pagina verder dus niet opvraagt kan de cache datum in de google's cache toch met die datum worden aangepast ondanks dat de cache veel eerder was opgehaald. De pagina is immers niet veranderd.

Vaak kun je na 3-7 dagen na een googlebot bezoek verwachten dat een pagina in cache komt te staan als google besluit een bestaande pagina opnieuw te cachen, het kan ook 2 maanden duren. In de periode aug.2006-aug.2007 werden webpagina's bij mij allemaal gemiddeld 105x / jaar (2x per week) bezocht met een minimum van 84x en een maximum van 116x per pagina afgezien van de index (hoofdpagina) die aan dubbele aantallen komt. Het is echter zeker niet gegarandeerd dat na een googlebot bezoek een pagina in cache komt. Ik heb ook pagina's gezien die 3-5 keer werden bezocht en pas na de 5e keer gecached werden. Daar is geen aanwijsbare oorzaak voor, is niet afhankelijk van paginawijzigingen, is volkomen random en toevallig. Google zelf kent ongetwijfeld de verklaringen, maar voor mij is er niet iets wat een directe relatie heeft met je eigen wijzigingen aan de pagina of pagina eigenschappen zoals veel of weinig tekst. Analyse achteraf van de access_log files over lange termijn geeft aan dat "geen enkele stelling over een oorzaak door b.v. een wijziging van je pagina stand houdt". Pas als je gecached bent kun je de "rank van keywoorden" met de gewijzigde inhoud gaan beoordelen. Voor die tijd wordt alleen naar de oude gecachte data gekeken voor de keywoorden.

Worden alle pagina's evenveel keren bezocht? Nee, ook dat is random. Ook niet gebonden aan wijzigingen noch gebonden aan inhoud. Ongeacht alle klets op internet weet ik het zeker omdat ik na een jaar analyse toch wel "enige correlaties" zou mogen verwachten in mijn acties en het gedrag van de googlebot en die zijn er niet, noch in positieve noch in negatieve zin. Volgens mij is de troef van google: laat die SEO's maar kletsen en conclusies trekken dan kunnen wij rustig ons algoritme optimaliseren voor goede zoekresultaten. Zo kan het zijn dat dezelfde pagina 5 keer in een week wordt bezocht en een andere toevallig 1x in een maand. Pech gehad voor de laatste, vooral als je de inhoud net hebt geoptimaliseerd en het resultaat wilt analyseren. Er is ook een enkele pagina die gewoon na 100 bezoeken (1 jaar dus) nog steeds niet gecached staat. Over het algemeen is daar dan wel een reden voor aan te wijzen na lang speurwerk. Handig is om je pagina's te laten voldoen aan de XHTML w3c normen. Soms zie je onbenullige fouten over het hoofd, die er daar mogelijk al uit komen.

Een ander handig tool is de link checker waarmee al je links worden gechecked, wat van belang is voor de website kwaliteit. Heeft je site veel dode links dan ben je voor de spiders een blok aan het been.

De googlebot laat zich niet manipuleren. Juist dat is ÚÚn van de sterke troeven van google om zich te verdedigen tegen "spammers". Het gemiddelde bezoek van de iedere websites met ieder ca 30 pagina's is ca 6 html files per dag gemiddeld over 90 dagen. De laatste paar maanden van 2007 is dat gedaald voor deze websites naar 4 per dag. De eerste paar maanden van 2008 is dat weer opgelopen naar 6 per dag. Dit heeft alleen met google zelf te maken en niet met wat jij doet met je website is voor mij glashelder geworden. Het gedrag dienaangaande voor 6 websites die ik nu volg op 2 servers en 2 providers is volkomen identiek. Het bezoek daalt bij allemaal tegelijk en het stijgt bij allemaal tegelijk. Terwijl ik met alle websites totaal verschillende zaken verander of niet verander. De index.html file wordt gemiddeld 2x vaker ge´nventariseerd als de overige pagina's. Een gemiddeld bezoek per echte webpagina is ca 2x per week bij mij. Let wel gemiddeld! Er kan dus ook zonder aanwijsbare reden een maand tussen twee bezoeken van een webpagina zitten.

Google geeft een grafiek op je account van het googlebotbezoek op je website. Het klopt (uiteraard) precies met de access_log resultaten. Grappig is dat blijkt als je voor de 3 websites deze grafieken (elke dag is een punt van de grafiek voor de verbindingslijnen) over elkaar legt dat de pieken en dalen van de googlebot bezoeken vrijwel gelijktijdig plaatsvinden. In sommige weken is er een enorme toename met hoge pieken van 20 pagina's/dag per website en er zijn ook weken met diepe dalen met nauwelijks of geen bezoek op een dag. De websites zitten ook nog eens op verschillende servers. De servers zijn voor zover vastgesteld nooit down, mijn google accounts melden althans geen missers (404 fouten) en ik heb zelf nog nooit mijn website gemist. Dan blijkt dat de IP nummers van de googlebots voor de verschillende websites ook nog eens verschillend zijn. De googlebot IP nummers wijzigen ook nog eens regelmatig maar zijn vaak gedurende een periode van een week of soms een maand lang hetzelfde voor dezelfde website. Het bezoek aan de website waar ik niets aan gedaan heb en de websites (2 en 3) waar ik vanalles mee doe lopen gewoon synchroon mee omhoog en omlaag. Hieruit kun je ook al meteen concluderen dat het googlebot bezoek niet be´nvloed wordt door het al of niet vernieuwen en veranderen van pagina's, maar dat er geheel andere invloeden zijn die bezoek doen toenemen en afnemen. En dat dan nog eens gelijktijdig voor de verschillende googlebots. Het lijkt meer op een "zwerm" bots die langs komt en weer gaat. Pagina's van verschillende websites op eenzelfde server worden altijd door dezelfde googlebots bezocht (zelfde googlebot-IP nummer).

Een aardige analyse van de periode 30jan-28aug 2007 van 2 websites op verschillende servers laat het volgende zien over het bezoek van de googlebots, welke steeds aaneengesloten tijdvakken blijken te bestrijken:

Website 1 server 1 Website 2 server 2
Googlebot-IP Bezoek-Data Aaneen-gesloten
periode
Aantal
bezochte
files
Googlebot-IP Bezoek-Data Aaneen-gesloten
periode
Aantal
bezochte
files
66-249-65-113
66-249-65-97
66-249-65-10
66-249-65-145
66-249-66-233
66-249-65-193
66-249-72-110
66-249-65-68
66-249-65-172
66-249-65-81

66-249-65-98    
66-249-65-74
66-249-65-44
66-249-65-14
66-249-65-225
66-249-65-197
66-249-65-232
66-249-65-144
66-249-66-34
66-249-65-195
66-249-65-193
66-249-66-199

66-249-66-34
66-249-65-244
30jan-31jan
1feb-1feb
2feb-7feb
8feb-13feb
14feb-22feb
23feb-27feb
28feb-28feb
1mrt-5mrt
6mrt-6mrt
8mrt-14mrt

14mrt-15mrt
15mrt-20mrt
21mrt-28mrt
29mrt-9apr
10apr-20apr
20apr-30apr
1mei-8mei
8mei-14mei
15mei-22mei
23mei-31mei
1juni-3juni
4juni-4juni

5juni-26juni
27juni-28aug
2dg
1dg
6dg
6dg
9dg
5dg
1dg
5dg
1dg
7dg

2dg
6dg
8dg
12dg
11dg
11dg
9dg
7dg
8dg
9dg
3dg
1dg

22dg
63dg
16
3
30
67
97
38
14
62
11
43

29
56
71
105
61
131
62
28
19
58
21
6

77
245
66.249.72.75
66.249.66.147
66.249.66.242
66.249.65.204
66.249.66.236
66.249.65.36
66.249.65.171
66.249.66.41
66.249.65.36
66.249.66.199
66.249.66.139
66.249.66.172
66.249.65.170
66.249.72.41
66.249.72.210
66.249.65.209
66.249.65.113
66.249.65.103
66.249.72.47
66.249.70.121
66.249.70.75
66.249.72.75
66.249.66.198
66.249.67.37
66.249.70.121
66.249.66.44
30jan-31jan
1feb-1feb
1feb-7feb
8feb-13feb
14feb-22feb
22feb-27feb
28feb-28feb
1mrt-6mrt
6mrt-6mrt
8mrt-14mrt
14mrt-14mrt
14mrt-15mrt
16mrt-20mrt
21mrt-28mrt
28mrt-9apr
10apr-20apr
20apr-1mei
1mei-8mei
8mei-13mei
14mei-23mei
24mei-4juni
5juni-5juni
5juni-5juni
5juni-5juni
5juni-25juni
27juni-28aug
2dg
1dg
7dg
6dg
7dg
6dg
1dg
6dg
1dg
7dg
1dg
2dg
5dg
8dg
13dg
11dg
12dg
8dg
6dg
10dg
11dg
1dg
1dg
1dg
21dg
63dg
20
3
27
52
72
37
6
50
10
37
1
13
36
66
124
62
81
70
32
34
80
3
2
3
93
252

De oplettende beschouwer vallen een aantal zaken op na een ordening van regels met ongeveer gelijke datums van de 2 websites. Het zijn bijna allemaal verschillende IP nummers per website of tussen de websites in gedurende deze 7 maanden. Enkele bots komen weer terug. De bots lijken als een paartje langs te komen ieder naar een server toe te gaan waarbij ze ieder vrij precies dezelfde periode aanwezig zijn. In de 2 langere periodes 5juni-28augustus komt dezelfde googlebots over veel langere periodes langs. Daarbij dient aangetekend dat dit niet tot een verlaagd bezoek aanleiding heeft gegeven. Hoewel het verschillende servers zijn zitten ze wel bij dezelfde provider dus op dezelfde lokatie. We zien dat beide bots van een paartje op gelijke tijdsperiodes respectievelijk veel of weinig pagina's bezoeken precies zoals ook op googles webcrawler grafieken aangetoond wordt voor 3 websites.

Voor websites op dezelfde server blijkt dat deze ook door precies dezelfde bots worden bezocht. De conclusie kan worden getrokken dat de dezelfde googlebot alle websites op eenzelfde server bezoekt. Googlebots richten zich kennelijk op een gehele server en niet op een specifieke website.

Bij het interpreteren van je google account webcrawl gegevens moet je de volgende zaken bedenken. De gecrawlde pagina's/dag is een op hele punten afgerond getal dat aangeeft hoeveel files/dag zijn opgevraagd. Geeft een file een 304 return terug ("not modified") dan wordt deze niet uitgelezen. Google geeft ook het aantal kilobytes aan dat is gedownload. Bezoeken aan sitemap's en robots.txt zijn wel telt wel mee in de pagina's maar niet in de kilobytes. Volgens mijn laatste waarnemingen doet de googlebot steeds vaker een If_Modified_Since request waardoor heel veel 304 returns ontstaan, steeds minder pagina's worden nog uitgelezen waarvan de inhoud niet gewijzigd is (ook nergens voor nodig) en dus worden ook minder googlebot-detectie emails toegestuurd.

Er is (geschreven 12-10-2007) mijnsinziens de laatste maanden een duidelijk strategie wijziging van google waarneembaar. Ten eerste blijven nu dezelfde bots (IP nummer) langduriger langskomen. Ten tweede wordt er vaker een If_Modified_Since request gedaan echter niet consistent. Ten derde wordt de index.html file ontzettend vaak bezocht ten koste van bezoeken aan alle andere webpagina's. De index.html krijgt ook heel snel nieuwe cache datums. De andere webpagina's worden zelden opnieuw gecached ondanks alle googlebot bezoeken en lopen nu grotendeels al 3 maanden achter. Dit is totaal onafhankelijk van vernieuwingen van de inhoud van de pagina's. Vernieuwingen helpen dus absoluut niet wat consistent is met mijn eerdere waarnemingen.

Eind december 2007 en de eerste 2 maanden van 2008 is er een forse toename waarneembaar van googlebotbezoek. Ik zie dat volkomen synchroon gebeuren op alle 6 verschillende websites die ik nu volg. Deze zitten verdeeld over 2 providers en 3 servers. Hieruit is, zoals ik al eerder contstateerde, voor mij de conclusie gerechtvaardigd dat het googlebotbezoek aan je website redelijk los staat van alle akties die je onderneemt ongeacht al het geleuter daarover op internet.
email:robvh@onsnet.nu

Valid XHTML 1.0!
introductie | basis_benodigdheden | goals_en_ethiek | veel_geduld_nodig | website_leeftijd | googlebot_bezoek | google's_indexering | google's_instabiliteit | supplemental_index | w3c_validiteit | googlebot_detectie | google_account | zoekmachine_optimalisatie | teller_op_je_website | page_rank | last_modified | sitemaps | robots.txt | frames_en_fabels | hoe_zoekt_google | link_populariteit | resultaten