Geschreven door Judith Rauwerda, Client manager bij Axians
In eerdere blogs heb ik vooral het technische aspect aan bod laten komen van datawarehouses. Wat is bijvoorbeeld het voordeel van een datawarehouse automation in vergelijking met een traditioneel datawarehouse? Maar laten we een stapje terug gaan. Waarom starten met een datawarehouse? Wat maakt het interessant om hier als organisatie naar te kijken? Wat voor voordelen heeft het?
Combineren van data
Organisaties die nog geen gebruik maken van een datawarehouse, maar wel van analytics, maken vaak rechtstreeks connectie met de bron in. Ze stellen een vraag aan de bron, in dit geval hun financiële systeem zoals “Hoeveel euro aan facturen staat er op dit moment open?”. Dit principe, een vraagstelling, heet een query. Het systeem gaat naar de bron en zoekt in alle tabellen en kolommen en kijkt welke tabellen en kolommen hij nodig heeft om antwoord te kunnen geven op de vraag.
De meeste bedrijven hebben meerdere bronnen zoals een CRM-systeem, een inkoop systeem, een financieel systeem, machines waar data in zit en zo zijn er nog veel meer mogelijke bronnen. Wat nou als je die data uit verschillende systemen kan combineren? Bijvoorbeeld financiële data met klantgegevens uit het CRM-systeem, om te kijken naar de kredietwaardigheid van klanten. Momenteel staat deze data los van elkaar en zal dit dus handmatig gecheckt moeten worden.
In een datawarehouse staat data uit verschillende bronnen bij elkaar. In plaats van op de bron, zet je op het datawarehouse de analytics tool en stel je de vraag “hoe kredietwaardig zijn mijn klanten?”. Je kunt dus verschillende vragen beantwoord krijgen die over meerdere bronnen gaan en je krijgt nieuwe inzichten omdat je de data combineert.
Bron ontlasten
Binnen organisaties zijn vaak meerdere medewerkers die gebruik maken van een analytics tool. Al deze medewerkers stellen dagelijks verschillende query’s aan het bron systeem. Doordat meerdere vragen door meerdere medewerkers aan de bron worden gesteld, kan de bron overbelast raken. Dit kan er bijvoorbeeld voor zorgen dat de medewerker van de klantenservice die de klant aan de lijn heeft lang moet wachten om in het systeem verder te komen. Dit is natuurlijk erg vervelend voor de klant.
In een datawarehouse staat alle data op één plek bij elkaar. Er wordt een kopie gemaakt van de bronnen en deze wordt in het datawarehouse gezet. Op het moment dat je een query stelt wordt niet de bron benaderd om de query te beantwoorden maar het datawarehouse. Dit zorgt dat de bron niet overbelast kan worden. Hierdoor zal de medewerker van de klantenservice niet lang meer hoeven te wachten tot het systeem laadt.
De rode draad van je data
Veel organisaties beginnen met en paar bronnen waar data in staat. De hoeveelheid data die wordt gecreëerd, vastgelegd en gebruikt stijgt exponentieel. Daarbij komt dat ze moeten kunnen aantonen welke data en bewerkingen ten grondslag liggen aan bijvoorbeeld een bepaald cijfer in een rapportage. Bij een paar bronnen kost dit relatief weinig inspanning. Maar op het moment dat de hoeveelheid data stijgt, stijgt ook de tijd die er mee gemoeid is om uit te zoeken waar de data vandaan komt. Hiervoor is een oplossing namelijk data lineage.
Data lineage is een gegevenslijn van data. Het laat zien waar de data ontstaat en welke bewerkingen en transformaties de data maakt. Je kunt het zien als een rode draad met het begin punt waar de data ontstaat en het eindpunt bijvoorbeeld een bepaald cijfer in een rapport. Door de draad te volgen zie je wat er met de data gebeurd en waar het vandaan komt. Het voordeel hiervan is op het moment dat er een fout in een rapport staat, je deze gemakkelijk kunt herleiden waar de fout ontstaan is. Of wanneer er een update of aanpassing van een bronsysteem komt, kun je zien wat hiervan de mogelijk impact is.
Data lineage is een structuur dat onderdeel is van een datawarehouse. Dit houdt in dat op het moment je gaat starten met een datawarehouse data lineage hier een onderdeel van zal zijn. De rode draad van je data is dus makkelijk te volgen op het moment dat je start met een datawarehouse.
Meer weten?
Wil jij meer informatie over Datawarehouses? Neem contact met mij op via judith.rauwerda@axians.com. Samen gaan we in gesprek met de expert binnen Axians op het gebied van jouw vraagstuk. Benieuwd naar het vervolgblog of de video’s die ik maak in mijn reis om van beginner tot expert te groeien? Volg me dan op LinkedIn