Leer in 12 minuten

  • Wat de term data lineage precies inhoudt
  • Welke soorten data lineage er zijn en welke inzichten ze geven
  • Hoe je data lineage implementeert met het data governance platform van Collibra

Data lineage brengt je data van bron tot bestemming in kaart, inclusief de transformaties die gegevensattributen ondergaan in een keten van bedrijfsprocessen, systemen en bewerkingen. Die datatransformaties kunnen bijvoorbeeld door ETL-tools, spreadsheets, of SQL en Python-scripts uitgevoerd zijn. Dat levert belangrijke inzichten op, want voor adequaat datamanagement wil je weten waar data vandaan komt en wat er onderweg mee gebeurd is. Ook in rapportages wil je weten wat de bron is van de data die daarin voorkomt. Zie je bijvoorbeeld in een dashboard ‘omzet’ of ‘prijs’ staan, dan wil je weten hoe dat attribuut tot stand is gekomen. Hoe is het berekend en waar is het vastgelegd? Data lineage maakt dat inzichtelijk.

Data lineage geeft inzicht en voorkomt fouten

De definitie van Gartner: ‘Data lineage specifies data origins, shows movement of data over time and provides context to what happens to data as it goes through diverse systems and processes’. 

Efficiëntie en betrouwbaarheid

Gedetailleerd inzicht in de levenscyclus van gegevens helpt bedrijven om risico’s adequater te beheren, audits uit te voeren en te voldoen aan branchevoorschriften. Door te zien welke transformaties gegevens hebben doorgemaakt, begrijpen gebruikers de verwerkte data beter. Bovendien is het eenvoudiger om wijzigingen door te voeren, wanneer je exact weet waar een bepaald gegeven vandaan komt en op welke plekken een wijziging gevolgen heeft. Je kunt efficiënter werken met data als je inzicht en overzicht hebt en de datastromen dus geen black box meer zijn. Met dat inzicht stijgt ook het vertrouwen van gebruikers om effectieve strategische beslissingen te nemen op basis van de data. Zo biedt data lineage technische voordelen (meer inzicht in data-architectuur, minder duplicaties en overbodige data, en een efficiëntere opslag van gegevens), maar ook bedrijfsvoordelen: compliance, grotere efficiëntie en een verrijkte context. Dat helpt gebruikers de juiste datasets te matchen met het juiste doel.

Twee praktijkvoorbeelden

Stel, iemand heeft aangegeven geen mails meer te willen ontvangen van jouw bedrijf. Hij benoemt daar zelfs de bij om aan te geven dat hij zijn rechten kent. Je zoekt het mailingbestand en verwijdert de gegevens van de betreffende persoon. Klaar, dacht je. Maar wat nu als dat mailingbestand periodiek wordt ververst met informatie vanuit andere systemen? Dan ontvangt jouw kritische relatie alsnog een bericht en is hij op zijn zachtst gezegd niet blij. Precies dit – en het komt meer voor dan je denkt – had voorkomen kunnen worden als je inzicht had gehad in de lineage van die data.

Of stel, je bent in gesprek met een collega van verkoopafdeling en jullie hebben verschillende rapportages van de verkoopresultaten voor je liggen. In jouw rapportage staat een omzet van 115 miljoen euro en je collega zegt ‘bij mij staat 109 miljoen’. Dat kan veel verwarring veroorzaken. Tot je ontdekt waar de data vandaan komt. Bij jou is het getal afkomstig uit het CRM-systeem en dat is een weergave van de voorspelde omzet. Het getal van je collega komt uit het ERP-systeem en is een weergave van de daadwerkelijke omzet. Je moet weten waar je informatie vandaan komt en hoe die gepresenteerd wordt en data lineage helpt je daarbij.

Drie soorten lineage

Een eenvoudige visualisatie kan al inzicht geven hoe gegevens binnen een organisatie stromen, ook zonder specifieke details over de transformaties die onderweg plaatsvinden. Data lineage op attribuutniveau biedt veel meer inzicht en levert directe aanknopingspunten voor het optimaliseren van de gegevensstroom en het verbeteren van gegevensplatforms. We onderscheiden drie soorten data lineage, ieder met zijn eigen mate van detaillering en zijn eigen gebruikersgroep:

Data lineage geeft inzicht en voorkomt fouten

Business lineage geeft een mapping weer in bedrijfstermen en geeft de ‘business user’ inzicht in de verantwoordelijkheid voor iedere stap in het proces.

Logische lineage visualiseert het conceptueel en logisch datamodel en geeft de business gebruiker informatie waar de data in zijn rapportage vandaan komt. Denk aan het praktijkvoorbeeld van het omzetcijfer uit CRM of ERP.

Technische lineage laat zien hoe de implementatie in de onderliggende systemen is uitgevoerd, en helpt de data engineer die op zoek is naar de oorzaak van datakwaliteitsproblemen, de impact van geplande wijzigingen of naar onderlinge afhankelijkheid van datastromen. Denk aan het praktijkvoorbeeld van het mailadres.

Controle van databron tot besluitvorming

Het belang van data lineage voor het gebruiken, beheren en beheersen van data is duidelijk. Daar komt nog bij dat wetten en normeringen steeds strengere eisen stellen aan de controle die een organisatie heeft over het gehele proces van databron tot besluitvorming. Organisaties staan voor een flinke uitdaging om binnen acceptabele kosten aan te tonen welke data en bewerkingen ten grondslag liggen aan een bepaald cijfer in een rapportage. Data lineage doet precies dat. Met de toename van de hoeveelheid data die in elke organisatie wordt gecreëerd, vastgelegd en gebruikt, neemt ook het belang van controle toe. Data beweegt zich immers door een grote hoeveelheid van (afdeling overstijgende) bedrijfsprocessen, applicaties en systemen van data/opslag.

Data governance, metadatabeheer en data lineage

Data governance is de set regels en procedures die organisaties gebruiken om gegevens te onderhouden en te controleren. Data lineage is een essentieel onderdeel van die governance geworden omdat het nadere informatie geeft over data op weg van bron naar bestemming. Als je weet dat tabel B is afgeleid van A en je hebt beleidsregels op A, dan geldt datzelfde beleid ook op tabel B. Al naar gelang hun behoefte, gebruiken bedrijven verschillende niveaus van data lineage. Zo is data lineage een belangrijke geworden voor data governance. In de vorm van directe waarde: inzicht en compliance, maar ook voor data governance (eigenaarschap, databeleid) en om datamanagement effectief en efficiënt te maken op aspecten als security, datakwaliteit en business glossary’s.

Automatiseren en visualiseren

Handmatige lineage is niet werkbaar door de enorme hoeveelheid data in organisaties. Bovendien moet de documentatie van lineage ook bijgehouden worden, bijvoorbeeld omdat definities veranderen. Dat is handmatig ondoenlijk. Dé oplossing is dan ook een systeem van geautomatiseerde lineage, die frequent en nauwkeurig de lineage van data uit bronsystemen extraheert en lineage diagrammen onderhoudt. Automatiseren van data lineage maakt het mogelijk om de data lineage te verrijken met overige data management informatie om nieuwe inzichten te creëren. Strategische zakelijke beslissingen zijn immers in hoge mate afhankelijk van de nauwkeurigheid en betrouwbaarheid van gegevens.

De kracht van Collibra

Collibra is een voorbeeld van een data governance platform dat geautomatiseerde data lineage mogelijk maakt. Het platform visualiseert niet alleen de samenhang tussen attributen, tabellen en datastromen (technische lineage), maar legt ook een link met business informatie en processen (business en conceptuele lineage). Zo laat Collibra bijvoorbeeld zien wie eigenaar is van bepaalde data en of er specifiek beleid geldt voor een bepaalde tabel. Het platform van Collibra maakt efficiënt gebruik van data mogelijk in de verschillende BI-, analyse- of andere systemen die een rol spelen in de datahuishouding van een organisatie. Het Collibra platform draait om het:

  • vinden van data
  • begrijpen van data
  • vertrouwen van data
  • aanvragen en verwerken van toegang tot data
  • implementeren van bedrijfsprocessen rondom data via rollen en workflows

Data lineage geeft inzicht en voorkomt fouten

Collibra heeft niet alleen connectoren met verschillende bronsystemen, ETL tools en BI-producten, maar is ook in staat om de lineage van die systemen te combineren (‘stitchen’) waarmee inzicht in de lineage van rapport tot de bron mogelijk wordt. De volgende screenshots geven een beeld van de visualisatie van business en technische lineage:

Data lineage geeft inzicht en voorkomt fouten

Business lineage, verrijkt met data governance of data management informatie. In dit geval wordt de geaggregeerde kwaliteitsscore van de betreffende tabel getoond als onderdeel van de lineage.

Data lineage geeft inzicht en voorkomt fouten

Technische lineage. In dit geval toont het diagram alle inkomende en uitgaande lineage van een tabel. Onderaan het scherm wordt de SQL van de verschillende transformaties getoond.

Data lineage geeft inzicht en voorkomt fouten

Ondersteuning van Collibra bij het identificeren en oplossen van lineage interpretatieproblemen. Het kan bijvoorbeeld voorkomen dat een tabel waarop een view is gebaseerd, niet meer bestaat. De definitie van de view staat nog in de database, maar heeft geen bron meer. Collibra zal dit dan aangeven als een probleem in de lineage.

Conclusie

Met Collibra gebruik je de lineage informatie niet alleen voor enkelvoudige vraagstukken, zoals een impactanalyse, maar ook voor gecombineerde uitdagingen, zoals privacy impactbepaling van informatie van bron tot rapportage, het verbeteren van de databeveiliging, of bijvoorbeeld om dubbele opslag van gegevens eenvoudiger te herkennen.

Hoe weet jij waar de data in je dashboards en rapportages vandaan komt en welke bewerkingen die data heeft ondergaan?