DataFacts.nl

Eén van de businessblogs van Depercon

Entries for the ‘Regex’ Category

Hoe strip je de HTML opmaak uit een webpagina

Vaak is het nodig om de HTML-tags uit (stukken uit) een HTML pagina te halen. Bijvoorbeeld in situaties dat de content van de pagina moet worden onderzocht of geanaliseerd. Dit is heel eenvoudig te doen met reguliere expressies (Regex).

(Lees verder…)

3 Reacties

Hoe haal je URL’s uit HTML pagina’s

In mijn dagelijkse werk houd ik mij veel bezig met Information Extraction. Met Information Extraction (Informatie Extractie) wordt bedoeld ‘het vinden van Informatie uit ongestructureerde data, bijvoorbeeld vrije tekst of HTML’. Information Extraction kan worden gebruikt om bijvoorbeeld geautomatiseerd elementen uit CVs te herkennen of documenten geautomatiseerd te categoriseren. Zoekmachines maken vaak gebruik van Information Extraction om relevantie van een website op basis van een zoekterm te bepalen.

Soms is het interessant om de URLs / Hyperlinks uit een stuk ongeordende tekst te halen, bijvoorbeeld:

  • om te bepalen wat op dit moment een heel erg HOT onderwerp is op het internet
  • om een spider of crawler (Gebruikt door onder andere zoekmachines) te maken
  • om het onderwerp van een artikel te achterhalen.
  • om een sitemap te kunnen maken

Er zijn een aantal methoden mogelijk om deze URLs te vinden. Eén daarvan is het gebruiken van regular expressions (Reguliere expressies). Om dit te kunnen doen is er naast een reguliere expressie een stukje programmeerwerk nodig. Ik zal een voorbeeld geven hoe dit te doen met C# (.NET).

(Lees verder…)

Reageer