DataFacts.nl

Businessblog van het bedrijf i4data

Entries for the ‘Information Extraction’ Category

Hoe strip je de HTML opmaak uit een webpagina

Vaak is het nodig om de HTML-tags uit (stukken uit) een HTML pagina te halen. Bijvoorbeeld in situaties dat de content van de pagina moet worden onderzocht of geanaliseerd. Dit is heel eenvoudig te doen met reguliere expressies (Regex).

(Lees verder…)

4 Reacties

Hoe haal je URL’s uit HTML pagina’s

In mijn dagelijkse werk houd ik mij veel bezig met Information Extraction. Met Information Extraction (Informatie Extractie) wordt bedoeld ‘het vinden van Informatie uit ongestructureerde data, bijvoorbeeld vrije tekst of HTML’. Information Extraction kan worden gebruikt om bijvoorbeeld geautomatiseerd elementen uit CVs te herkennen of documenten geautomatiseerd te categoriseren. Zoekmachines maken vaak gebruik van Information Extraction om relevantie van een website op basis van een zoekterm te bepalen.

Soms is het interessant om de URLs / Hyperlinks uit een stuk ongeordende tekst te halen, bijvoorbeeld:

  • om te bepalen wat op dit moment een heel erg HOT onderwerp is op het internet
  • om een spider of crawler (Gebruikt door onder andere zoekmachines) te maken
  • om het onderwerp van een artikel te achterhalen.
  • om een sitemap te kunnen maken

Er zijn een aantal methoden mogelijk om deze URLs te vinden. Eén daarvan is het gebruiken van regular expressions (Reguliere expressies). Om dit te kunnen doen is er naast een reguliere expressie een stukje programmeerwerk nodig. Ik zal een voorbeeld geven hoe dit te doen met C# (.NET).

(Lees verder…)

Reageer

Hoe gaat Google met datums in HTML pagina’s om (Deel 2)?

Eergisteren schreef ik een bericht waarin ik liet zien dat Google aardig in staat is om de meest relevante datum van een webpagina te vinden en deze (soms) dan ook toont in de zoekresultaten. Ik ben benieuw of Google deze datum ook meeweegt met de zoekresultaten. Vooralsnog lijkt dit niet het geval. Wel is het zo dat google een aantal regels lijkt te hanteren voor het bepalen van deze datum.

HIerbij mijn bevindingen tot nu toe:

(Lees verder…)

Reageer

Hoe gaat Google met datums in HTML pagina’s om?

Het blijft een uitdaging om uit te zoeken hoe google relevantie bepaalt op basis van een zoekopdracht. Zeker als je maar een deel van de input kunt geven (de zoekopdracht) en maar een deel van de output ziet (de resultaten). In de black box daartussen (De google zoekmachine) vindt Information Extraction plaats en draait een complex algorithme, echter niemand weet hoe dit precies gebeurt en functioneert.

Toch kun je met de zoektermen en de zoekresultaten al best veel te weten komen over de black-box ‘Google’. Bijvoorbeeld dat Google een oogje heeft op de publicatiedatum van een artikel.

(Lees verder…)

Reageer