Het blijft een uitdaging om uit te zoeken hoe google relevantie bepaalt op basis van een zoekopdracht. Zeker als je maar een deel van de input kunt geven (de zoekopdracht) en maar een deel van de output ziet (de resultaten). In de black box daartussen (De google zoekmachine) vindt Information Extraction plaats en draait een complex algorithme, echter niemand weet hoe dit precies gebeurt en functioneert.

Toch kun je met de zoektermen en de zoekresultaten al best veel te weten komen over de black-box ‘Google’. Bijvoorbeeld dat Google een oogje heeft op de publicatiedatum van een artikel.

 

Het viel mij vorige week pas voor het eerst op: Google begint soms een zoekresultaat met een datum die is genoemd op de betreffende webpagina. Dit doet google echter niet altijd. Als Google een datum toont dan is dit meestal de meest relevante datum op de pagina, echter soms toont Google een datum die op een andere plaats in de pagina staat. Bijvoorbeeld als ik een zoekopdracht geef voor ‘site:marketingfacts.nl’ dan krijgt ik het volgende resultaat op positie 5 en 6:

resultaat-google

Je ziet dat het eerste resultaat niet begint met een datum, echter het tweede resultaat wel. Als ik echter in het Google cache de pagina’s open dan zie ik in beide gevallen op de zelfde plek een datum staan.

Resultaat 5:

Marketingfacts pagina

Resultaat 6:

marketingfacts

Beide datums bevinden zich op de zelfde positie in de HTML-documenten en zijn het zelfde opgemaakt. Op beide pagina’s staan ook meerdere datums (kijk maar). Het enige verschil dat ik in de structuur op kan merken is dat de eerste post niet direct met tekst begint en de tweede wel.

Ik vraag mij af:

  • Waarom toont Google niet bij beide resultaten een datum?
  • Deze datum ziet Google blijkbaar als een los gegeven. Telt deze datum mee in de positie in de zoekresultaten? 
  • Google kan in het tweede voorbeeld de juiste datum vinden, ondanks dat er meerdere datums op de webpagina staan. Hoe gaat Google om met pagina’s waar meedere datums opstaan? 

Deel 2 – Hoe gaat Google met datums in HTML pagina’s om