Hoe zoekt google zo vlug?
|
||||||
27-juli-2007 geschreven. Bijgewerkt: 23 jan. 2008 Een ervaringsverhaal over zoekmachine optimalisatie voor beginnende websites. Doe je voordeel ermee. HOE ZOEKT GOOGLE Sommige mensen denken misschien dat google gaat kijken naar elke gecachte pagina, maar dat is niet zo. Dan zou het zoeken ontzettend veel tijd in beslag nemen. Andere denken dat niet "alle pagina's" bekeken worden maar dat is ook niet zo! Er ontsnapt in principe geen enkele gecachte pagina tijdens je zoek-actie aan de aandacht van google. Afgezien natuurlijk van incidentele technische tekortkomingen zoals een aantal uitgevallen servers of een herrangschikking van caches net als jij zoekt. Google (of zoekmachines in het algemeen) maakt een database waarin vermeldt staat welk woord hoe vaak voorkomt op welke pagina. Bedenk er zijn ca 50.000-100.000 woorden in een Nederlandse woordenboek. Er waren ca 9 miljard pagina's in google waarvan 300 miljoen in nederland in 2006 (info: www.infeite.nl/2006/07/maurice_de_kund.html). Voor een slim wiskundig algoritme die een database doorzoekt stelt dat echter niet zoveel voor. Waarschijnlijk (ik weet daar te weinig van) worden niet alleen de losse woorden maar ook combinaties van twee of meer woorden opgeslagen die naar de bijbehorende pagina's wijzen. De algoritmes van google gaan eerst aan de slag met de database niet met de caches. Die komen aan het eind van de zoekrit pas aan bod. Als je een willekeurige unieke tekst van enkele woorden tussen quotes uit een willekeurig document op de wereld dat in cache staat laat zoeken dan komt de betreffende pagina ALTIJD op. Hieronder een analyse van een stukje tekst uit de eerste caches van een testdocument met het aantal pagina's dat opkomt in google. Bedenk dat ook dat o.a. de <title>"Tekst"</title> en alt="Tekst", <noframes>Tekst</noframes> en <noscript>Tekst</noscript> (ja, ja OOK noscript!!!) mee doen in de zoektocht. Echter NIET de meta tag <description> of de meta tag <keywords> teksten. Tussen quotes komt de pagina als unieke pagina op. Niet tussen quotes zijn er 32.400 pagina's waar al de betreffende woorden in voorkomen, d.w.z. dat elk van die 32.400 pagina's ieder woord minimaal één keer bevat ergens in de tekst. De gevonden aantallen onder "pagina's" gelden dus voor google.nl voor "het Internet" op 21-09-2007 en kunnen per dag anders zijn. De voorwaarde dat dit voorbeeld ook werkt voor de stukjes tussen quotes als je dit leest is dat de pagina in cache staat bij google! Zoniet dan vindt google hem niet (meer). Dus check eerst in google: site:zoekmachine-optimalisatie.vanheelsbergen.com/ of site:zoekmachine-optimalisatie.vanheelsbergen.com/hoe-zoekt-google.html (Deze pagina) Levert dat die pagina's niet op dan werkt dit voorbeeld niet meer (of tijdelijk niet omdat de cache verdwenen is) voor de rechtse kolom waarbij de pagina wordt gevonden op de eerste paar honderd posities (<800), zoals hier op b.v. op 1,2 of 20. Google kent ook het fenomeen " supplemental index". Als pagina's daarin gecached staan doen ze ook mee in het zoeken maar zul je nooit een hoge positie in de SERPs krijgen tenzij de zoekquerie tamelijk unique is omdat deze b.v. tussen quotes staat (zoals hier in de rechter kolom). Deze pagina's staan overigens in de supplemental index.
** 23-01-2008 zoekactie. Resultaten wijzigen overigens per dag of zelfs per zoekopdracht indien deze door een andere google server(s) wordt afgehandeld. Geef je geen google IP nummer op (en dat doet gewoonlijk niemand) dan kan elke zoekopdracht ook plotseling door een andere google server worden afgehandeld en daardoor andere resultaten produceren. De letter "a" is waarschijnlijk het meest voorkomende woord met 16.020.000.000 keer omdat het als Engels lidwoord in elke pagina met tekst wel (vele malen) voorkomt. "The" scoort 9.930.000.000 keer. Google weet precies welk woord op welke pagina's voorkomt en hoe vaak, die info staat n.l. in zijn database naast alle gecachte pagina's. Het is dus niet zo dat bij het zoeken alle pagina's worden doorzocht, maar dat wordt gekeken op welke pagina's de woorden staan en op welke pagina's combinaties van woorden bij elkaar staan. D.m.v. uitsluiten kan je dus het aantal pagina's drastisch reduceren dat werkelijk nog eens bekeken moet worden op een gewenste combinatie. Het langste woord zal meestal het minste voorkomen dus: "optimaliseren" komt op "slechts" 2.480.000 pagina's voor. Ook woordcombinaties zullen zijn vastgelegd in de database met een verwijzing naar de pagina's waar dat voorkomt. Googles intelligente wiskunde ingenieurs hebben natuurlijk een optimum bepaald hoeveel database het beste gemaakt moet worden om binnen de flitsende tijd te focusseren op de pagina's waar het om draait. "Ervaring" komt op 24.300.000 pagina's voor. Nu gaat een relatief simpel algoritme kijken op welke pagina's beide woorden ("ervaring" "optimaliseren") voorkomen en die ziet er nog maar 703.000. Vergelijkt hij dat weer met de 3.250.000 pagina's waar "hobby" staat (het hoeft alleen in het Nederlands weet hij intussen immers ook wel) dan blijven er "slechts" 32.400 mogelijkheden over. Zo komt google binnen 0,07 seconden erachter dat "hobby ervaring in het optimaliseren" als unieke combinatie alleen op mijn pagina voorkomt. Maar ook "hobby ervaring in het" komt maar éénmaal voor (0,06 seconden) blijkt (21-09-2007). Je mag dus nu rustig aannemen dat deze unieke combinatie van 4 woorden op geen enkele andere pagina van google's hele cache bestaat. Het woordje "als" stond in feite voor deze zinsnede en je kunt je EERDER voorstellen dat iemand opschrijft "ik heb als hobby ervaring met ........." dan ervaring in..... en dan zie je dus ook dat "hobby ervaring met" 206 pagina's oplevert i.p.v. de slechts 3 bij "hobby ervaring in". Tevens zie je dat het weglaten of toevoegen van veelvoorkomende woordjes als "in" en "het" het aantal pagina's niet of minimaal veranderd bij de grote aantallen (704.000 -> 703.000 en 32.400 blijft 32.400). Dat is logisch omdat vrijwel elke tekstpagina die 2 woorden wel bevat, zodat er weinig reden is dat de totaal aantallen veranderen. Dat google deze veelkomende lid en bijwoorden zou negeren is pertinent onjuist. |
||||||
email:robvh@onsnet.nu
|
||||||
introductie | basis_benodigdheden | goals_en_ethiek | veel_geduld_nodig | website_leeftijd | googlebot_bezoek | google's_indexering | google's_instabiliteit | supplemental_index | w3c_validiteit | googlebot_detectie | google_account | zoekmachine_optimalisatie | teller_op_je_website | page_rank | last_modified | sitemaps | robots.txt | frames_en_fabels | hoe_zoekt_google | link_populariteit | resultaten |