DataFacts.nl

De businessblog van Depercon

Performance tips voor SSIS

Veel ETL consultants herkennen het:
De tijd tussen backup en servicewindow of het weekend is te kort om alle ETL processen te hebben voltooid en het datawarehouse geheel bij te hebben gewerkt. Vaak zijn deze packages nog niet optimaal getuned.

In deze blogpost wordt een aantal elementaire tips gegeven hoe SSIS packages verneld kunnen worden.

[lees meer...]

Hoe eenvoudige SQL queries maken

Er komen op dit blog regelmatig bezoekers vanaf Google die de hebben gezocht op ‘SQL query maken’ of ‘Query maken’. Deze bezoekers zijn echter binnen enkele seconden weer van Datafacts.nl af omdat zij deze informatie, tot vandaag, hier niet konden vinden. Uiteraard ben ik, als data-addict, ook altijd bezig met het begrijpen van zoekmachines (Information Retrieval) en het indexeren van data. Daarom het idee om in één blogpost uit te leggen hoe een eenvoudige SQL query kan worden gemaakt en waarom ik deze blogpost voor SEO doeleinden maak. [lees meer...]

Stopwoorden en de stoplist van MySQL

Eerder beschreef ik waarom stopwoorden het best zoveel als mogelijk moeten worden uitgesloten bij het indexeren van tekst. In dit artikel een beschrijving hoe een stopwoordenlijst voor Mysql kan worden gemaakt en geinstalleerd. Ook hoe de zoekindex hierna opnieuw kan worden opgebouwd.

[lees meer...]

Wat zijn stopwoorden en waarom uitsluiten bij indexeren

Niet alle woorden in een vrije tekst zijn altijd nuttig om op te nemen in een database index, bijvoorbeeld de stopwoorden. Stopwoorden zijn woorden die dusdanig vaak in tekst zijn gebruikt dat deze onvoldoende identificerend zijn, bijvoorbeeld lidwoorden als ‘de’, ‘het’ en ‘een’, maar ook woorden als ‘er’, ‘maar’, ‘voor’, ‘zich’ en ‘over’ .

Zodra het mogelijk zou zijn om op stopwoorden te zoeken of als er geen onderscheid zou worden gemaakt tussen stopwoorden en overige woorden dan zou bij een willekeurige zoekactie een groot aantal zoekresultaten terugkomen waarvan de relevantie twijfelachtig is. [lees meer...]

Tempdb database van SQL Server in RAM-geheugen plaatsen?

In SQL Server 2000 was het nog mogelijk om m.b.v. configuratieopties de Tempdb in het RAM geheugen te plaatsen. Het effect was meestal een veel beter presterende SQL Server database.

Sinds SQL Server 2005 is het niet meer mogelijk om de Tempdb via configuratieopties in het RAM te plaatsen. Dit is echter op een andere manier wel mogelijk.

[lees meer...]

Nieuwe versie van de SQL Server Cheat Sheet

Omdat onze SQL Server Cheat Sheet de afgelopen 3 jaar meer dan 10.000 keer is gedownload hebben we weer enkele wijzigingen doorgevoerd en deze nieuwe cheat sheet tot versie 1.2 benoemd. Als u SQL Server ontwikkelaar bent of SQL Server DBA dan kan deze cheat sheet voor u een handig hulpmiddel zijn.
U kunt de cheat sheet op onze Depercon-website downloaden onder de sectie ‘Downloads’.

Data cleansing met SQL Server 2012 Data Quality Services

Met SQL Server 2012 zal een set tools beschikbaar komen waarmee het mogelijk wordt om data op te schonen (cleansen), zoals het aanvullen en verbeteren van relatiebestanden. Met deze tools kan een vervuild bestand vergeleken worden met één of meerdere bronbestanden (zoals een kennisdatabase of KvK-bestand) waarna op basis van een algorithme verbetervoorstellen worden gedaan. Vervolgens kan de gebruiker handmatig door alle verbetervoorstellen lopen en deze goed-of-afkeuren. [lees meer...]

Page Life Expectancy: Een indicator of uw SQL Server genoeg geheugen heeft

Wat te doen als de performance van de queries op uw databaseserver te wensen overlaat

Natuurlijk probeert u eerst uw queries te optimaliseren. Als dit geen oplossing biedt dan wordt het tijd om te kijken of uw databaseserver wel voldoende geheugen heeft. Een belangrijke indicator hiervoor is de ‘Page Life Expectancy’. Deze kunt u met de applicatie ‘perfmon.exe’ monitoren. [lees meer...]

Goed presterende (snelle) SQL Queries maken

Vaak maakt het weinig uit of een query optimaal presteert of niet. Bijvoorbeeld als het ophalen van 1 record een halve seconde duurt en dat record wordt gebruikt om op een gebruikersscherm te tonen dan maakt het niet veel uit als die query wordt versneld naar een kwart seconde.

Echter, vaak is de snelheid waarmee de SQL query een resultaat oplevert wel heel erg belangrijk en telt iedere milliseconde [lees meer...]

Adressenbestand ontdubbelen m.b.v. trigrammen

Ieder bedrijf heeft er last van: Het bedrijfsbestand (relatiebestand, naw gegevens, adresgegevens, mailingbestand, klanten, prospects) groeit en op den duur is het bestand gevuld met relaties die dubbel voorkomen, maar net niet 100% hetzelfde. Een goede opschoonactie is dan soms noodzakelijk, bijvoorbeeld voordat de mailing de deur uitgaat. Ik heb zelf een aantal van dit soort trajecten doorlopen en hier soms software van derden gebruikt (bijvoorbeeld Human Inference). Maar hoe vind je nou die dubbelen zonder dit soort dure software en zonder het gehele bestand handmatig te moeten doorlopen?

Een antwoord kan zijn: met trigrammen.

[lees meer...]