DataFacts.nl

Eén van de businessblogs van Depercon

Entries for januari 21st, 2009

Cheat sheet (Factsheet) voor SQL Server gebruikers

SQL Server factsheetIk werk zelf veel met SQL Server en MySQL. Met name voor het schrijven van queries om gegevens te bevragen en te manipuleren. Sommige bewerkingen vragen dusdanig veel resources van een systeem dat ik deze queries ook snel (lees: korte executietijd) moet maken zodat deze efficient met de resources omgaan.

Om deze queries gemakkelijker te kunnen schrijven heb ik enige tijd geleden al een factsheet gemaakt waarop alle voor mij belangrijke functies, datatypen, checklijsten, symbolen en syntaxis voor SQL Server te vinden.

Deze cheat sheet (factsheet) past op een dubbelzijdig in kleur afgedrukt A4-tje en kan (het liefst gelamineerd) als naslag in de tas geschoven worden.

(Lees verder…)

1 Reactie

Hoe haal je URL’s uit HTML pagina’s

In mijn dagelijkse werk houd ik mij veel bezig met Information Extraction. Met Information Extraction (Informatie Extractie) wordt bedoeld ‘het vinden van Informatie uit ongestructureerde data, bijvoorbeeld vrije tekst of HTML’. Information Extraction kan worden gebruikt om bijvoorbeeld geautomatiseerd elementen uit CVs te herkennen of documenten geautomatiseerd te categoriseren. Zoekmachines maken vaak gebruik van Information Extraction om relevantie van een website op basis van een zoekterm te bepalen.

Soms is het interessant om de URLs / Hyperlinks uit een stuk ongeordende tekst te halen, bijvoorbeeld:

  • om te bepalen wat op dit moment een heel erg HOT onderwerp is op het internet
  • om een spider of crawler (Gebruikt door onder andere zoekmachines) te maken
  • om het onderwerp van een artikel te achterhalen.
  • om een sitemap te kunnen maken

Er zijn een aantal methoden mogelijk om deze URLs te vinden. Eén daarvan is het gebruiken van regular expressions (Reguliere expressies). Om dit te kunnen doen is er naast een reguliere expressie een stukje programmeerwerk nodig. Ik zal een voorbeeld geven hoe dit te doen met C# (.NET).

(Lees verder…)

Reageer