Hoe haal je de relevante keywords uit web/html content.
Information Retrieval is een zeer interessante tak van sport: De kunst van het vinden van de juiste content uit een hele grote verzameling op basis van een Query/vraag. Hoe weet Google toch dat als ik artikelen over ‘apple’ zoek ik het computermerk Apple bedoel en niet zo’n stuk fruit?
Dit begint bij het op een slimme manier indexeren van de content. In dit artikel geeft ik een ‘brute force’ voorbeeld hoe je de belangrijkste sleutelwoorden van een stuk HTML content zou kunnen bepalen.
