Geschreven door Judith Rauwerda, Client manager bij Axians
Afgelopen weken ben ik gestart met het onderzoeken van datawarehouse automation. In dit blog ga ik dieper in op datawarehouse automation. Wat is het nu eigenlijk? En hoe werkt het? Om dit te kunnen uitleggen neem ik jullie kort mee terug naar wat een datawarehouse is zodat het verschil duidelijk wordt.
Starten met een datawarehouse
Een datawarehouse is een plek waarbij data uit verschillende bronnen worden verzameld. De data uit deze bronnen laad je in het datawarehouse. We hebben het dan over ruwe, ongestructureerde data. Deze data moet je gestructureerd maken zodat er 1 definitie geldt. Hierbij wordt het ETL proces toegepast: Extract, Transfer en Load. Daarbij ga je de data uit de bron halen, de data aanpassen en vervolgens de data inladen in het datawarehouse.
Waarom een datawarehouse?
Doel van een datawarehouse is o.a. om de originele bron te ontlasten van constante rapportage en analyse vragen, dit kan namelijk nogal impact hebben op de operatie. Doordat meerdere mensen rechtstreeks rapportage vragen aan de bron stellen, kan de bron langzamer gaan werken. Als we het voorbeeld van de bakker weer gebruiken kan dit betekenen dat het voor een klant langer duurt voordat deze een brood kan afrekenen bij de kassa. Door een kopie van de bron te maken en daarop de analyse uit te voeren, wordt de originele bron niet overbelast en kan de operatie doorgaan.
Data combineren
Zodra alle data gestructureerd uit de verschillende systemen in je datawarehouse staat, ga je de data inladen, daarna combineren en business ready maken. Daarop kan gemakkelijk een analyse worden uitgevoerd omdat er één waarheid is gemaakt. Op basis van deze data kan een bakker zijn analyse doen. Bijvoorbeeld de bakker heeft volgens het productiesysteem het afgelopen jaar op woensdagen 75.000 Waldkorn broden geproduceerd. Echter het kassasysteem geeft aan dat er op woensdag 70.000 Waldkorn broden zijn verkocht. Dit betekent dat hij het afgelopen jaar 5.000 broden te veel heeft geproduceerd. Een analyse stopt dan natuurlijk niet, de vraag die dan al direct op komt is waar zijn die andere 5.000 broden naar toe?
Maar wat is dan datawarehouse automation?
In een datawarehouse worden er aan de achterkant verschillende codes geschreven in programmeertaal, dit noemen we scripten. Het doel van scripten is om computer software een bepaalde actie uit te laten voeren. Je kunt scripten zien als het opschrijven van een code: men kan in dezelfde taal schrijven of spreken, maar door het persoonlijke handschrift of de uitspraak ziet het er net iets anders uit.
Hierdoor kan het voor een andere medewerker lastig zijn om de code te lezen. Daarnaast wordt er in de code, de actie, ook vast gelegd waar de data vandaan komt en hoe deze gedocumenteerd is. Het kan dus erg lastig zijn om te zien waar de data vandaan komt, dit noemen we Data Lineage. Eén van de krachten van een automation tool is dat hij ook de vertaling kan doen voor je richting de software waar het moet landen.
Bij een datawarehouse automation tooling wordt het ETL-proces automatisch gegenereerd, waardoor er maar 1 scripttaal is en je dus niet afhankelijk bent van verschillende “handschriften”. En omdat het systeem de onderliggende scripts genereerd heeft kan het middels die meta data geautomatiseerd de documentatie, data lineage genereren. Hierdoor worden een aantal risico’s tijdens het opbouwen van een datawarehouse weggenomen.
Een datawarehouse of datawarehouse automation tool?
Een datawarehouse automation tool is ter vervanging van een datawarehouse. In een datawarehouse wordt ruwe data omgezet naar gestructureerde data waarbij een medewerker het ETL-proces uitvoert door middel van scripten. In een datawarehouse automation tool wordt er een ETL-code gegenereerd zodat gegevens automatisch aan elkaar gekoppeld worden en goed komen te staan. Het scripten valt weg, waardoor de medewerker tijd heeft voor andere werkzaamheden.
De voordelen
- Tijdwinst – De scripts worden voor iemand gegenereerd. De intelligentie van de data dient de medewerker nog steeds zelf toe te voegen.
- Kostenbesparing – Het scripten gaat automatisch en hoeft niet door een medewerker te worden gedaan.
- Minder fouten – Er wordt bij een datawarehouse automation tool een code gegenereerd, bij een datawarehouse schrijft een medewerker de codes handmatig.
- Sneller – Doordat de scripts gegenereerd worden kan de data sneller inzichtelijk worden gemaakt. Ook bij aanpassingen in het bronlandschap of bij de vraag van de organisatie kan snel bekeken wat de impact is waardoor er sneller geacteerd kan worden op de aanvraag.
- Afhankelijkheid – De datawarehouse automation tool houdt zelf in de gaten welke data er eerst geladen moet worden voordat een volgende actie in het ETL proces gestart kan worden.
Meer weten?
Wil jij meer informatie over Business Intelligence of Datawarehouses? Neem contact met mij op via judith.rauwerda@axians.com. Samen gaan we in gesprek met de expert binnen Axians op het gebied van jouw vraagstuk. Benieuwd naar het vervolgblog of de video’s die ik maak in mijn reis om van beginner tot expert te groeien? Volg me dan op LinkedIn