DataFacts.nl

Businessblog van het bedrijf i4data

Entries for the ‘Data analyse’ Category

Adressenbestand ontdubbelen? Probeer het eens met trigrammen (update).

Ieder bedrijf heeft er last van: Het bedrijfsbestand (relatiebestand, naw gegevens, adresgegevens, mailingbestand, klanten, prospects) groeit en op den duur is het bestand gevuld met relaties die dubbel voorkomen, maar net niet 100% hetzelfde. Een goede opschoonactie is dan soms noodzakelijk, bijvoorbeeld voordat de mailing de deur uitgaat. Ik heb zelf een aantal van dit soort trajecten doorlopen en hier soms software van derden gebruikt (bijvoorbeeld Human Inference). Maar hoe vind je nou die dubbelen zonder dit soort dure software en zonder het gehele bestand handmatig te moeten doorlopen?

Een antwoord kan zijn: met trigrammen.

(Lees verder…)

6 Reacties

Taal van een tekst bepalen m.b.v. trigrammen

Tri-grammen kunnen voor verschillende doeleinden worden gebruikt. Al eerder schreef ik over het gebruiken van Trigrammen bij het ontdubbelen van een relatiebestand. Tri-grammen kunnen ook worden gebruikt bij het bepalen van de taal van een stuk tekst.
(Lees verder…)

Reageer

Hoe haal je de relevante keywords uit web/html content.

Information Retrieval is een zeer interessante tak van sport: De kunst van het vinden van de juiste content uit een hele grote verzameling op basis van een Query/vraag. Hoe weet Google toch dat als ik artikelen over ‘apple’ zoek ik het computermerk Apple bedoel en niet zo’n stuk fruit?  

Dit begint bij het op een slimme manier indexeren van de content. In dit artikel geeft ik een ‘brute force’ voorbeeld hoe je de belangrijkste sleutelwoorden van een stuk HTML content zou kunnen bepalen.

(Lees verder…)

1 Reactie

Hoe gaat Google met datums in HTML pagina’s om (Deel 2)?

Eergisteren schreef ik een bericht waarin ik liet zien dat Google aardig in staat is om de meest relevante datum van een webpagina te vinden en deze (soms) dan ook toont in de zoekresultaten. Ik ben benieuw of Google deze datum ook meeweegt met de zoekresultaten. Vooralsnog lijkt dit niet het geval. Wel is het zo dat google een aantal regels lijkt te hanteren voor het bepalen van deze datum.

HIerbij mijn bevindingen tot nu toe:

(Lees verder…)

Reageer

Hoe gaat Google met datums in HTML pagina’s om?

Het blijft een uitdaging om uit te zoeken hoe google relevantie bepaalt op basis van een zoekopdracht. Zeker als je maar een deel van de input kunt geven (de zoekopdracht) en maar een deel van de output ziet (de resultaten). In de black box daartussen (De google zoekmachine) vindt Information Extraction plaats en draait een complex algorithme, echter niemand weet hoe dit precies gebeurt en functioneert.

Toch kun je met de zoektermen en de zoekresultaten al best veel te weten komen over de black-box ‘Google’. Bijvoorbeeld dat Google een oogje heeft op de publicatiedatum van een artikel.

(Lees verder…)

Reageer