Stap 2 AI Ladder: Creëer een stevig Analytics fundament
Met AI en Machine Learning kunnen organisaties mooie dingen bouwen. Slimme toepassingen om snel en gefundeerd de juiste beslissingen te nemen die de prestaties van de organisatie daadwerkelijk verbeteren. Om ervoor te zorgen dat AI of Machine Learning oplossingen ook daadwerkelijk meerwaarde hebben, is het essentieel om de data-omgeving goed te organiseren. Dan ontstaat een betrouwbare en eenduidige versie van de waarheid. In stap 1 naar datagedreven werken gingen we dieper in op het verzamelen van de juiste data. Nu staan we stil bij de volgende trede. Stap 2 op weg naar datagedreven werken draagt bij aan de betrouwbaarheid en effectiviteit van de AI-toepassingen die je bouwt en inzet.
Slimme integratie en goede toegankelijkheid van data zijn succesfactoren voor AI en Machine Learning. Maar dat betekent nog niet dat er grip op de kwaliteit van de data is. Bij veel bedrijven ontbreekt het aan duidelijke Data Governance ofwel alles wat nodig is om de data op orde te brengen en te weten waar iedereen over praat. Want naast de vraag waar data staat, zijn ook de vorm, definities en richtlijnen van de data van belang. Bovendien is het zaak om te kunnen checken of de afgesproken regels ook consequent worden toegepast en eventuele fouten te herstellen. Als alle data effectief georganiseerd is, ontstaat een betrouwbaar en bedrijfsklaar Analytics- en AI-fundament, waar gebruikers in de organisatie mee aan de slag kunnen.
Duidelijke definities
Het borgen van de datakwaliteit staat centraal bij het vastleggen van: de definities, nauwkeurigheid, consistentie, toegankelijkheid en eigenaarschap. Het vastleggen van deze informatie vergroot de toegankelijkheid en voorkomt dubbel werk. Problemen met de definities en/of vindbaarheid kosten vaak veel tijd en dus geld. Tijd die wil je beter kan besteden aan optimalisatie en correcte voorspellingen. In Cloud Pak for Data leggen we deze informatie vast een Business Governance Catalog, hierin wordt duidelijk vastgelegd aan welke eisen en richtlijnen specifieke data moet voldoen. Door definities af te spreken voorkom je dat cijfers en interpretaties kunnen verschillen. Bijvoorbeeld hierbij is wanneer tellen we een order als omzet? En is dit inclusief of exclusief retourzendingen. Hierin zit een groot verschil. Doordat je regels vooraf duidelijk afspreekt, ontstaan er geen onduidelijkheden, discussies of fouten.
Borgen van datakwaliteit
Het afspreken van definities biedt ook kans om de datakwaliteit geautomatiseerd te monitoren. In Cloud Pak for Data doe je dit door data rules bij de definities te creëren, hiermee zijn compliance en verslaglegging geïntegreerd. De verslaglegging ontstaat doordat data rules de daadwerkelijke data valideren. Mocht er tijdens het monitoren van deze rules afwijkingen geconstateerd worden, komen deze naar voren in een datakwaliteitsdashboard en/of een notificatie. Dit biedt de kans om eventuele fouten te tijdig op te lossen en afnemers te informeren. Bovenstaande functionaliteit staat ook bekend als Data Profiling & Cleansing. Dit alles is beschikbaar in de gebruikersinterface van IBM Cloud Pak for Data en vergemakkelijkt het borgen van de datakwaliteit. Deze aanpak zorgt voor grip, voorkomt fouten en dus betere voorspellingen in de AI-modellen.
Geen Babylonische spraakverwarring
Door de data-omgeving transparant en beheersbaar te organiseren, met oog voor Data Governance, is het mogelijk om een betrouwbare en breed gedragen versie van de waarheid te creëren en te onderhouden. Dit voorkomt tijdrovende Babylonische spraakverwarring en discussies. Met een betrouwbaar fundament kan iedereen binnen de organisatie snel en effectief aan de slag met Analytics en AI.
In onze volgende blog over IBM Cloud Pak for Data gaan we dieper in op de derde trede van de AI Ladder – het analyseren van data.
Hoe kunnen wij je helpen?
Wil je graag meer weten over Cloud Pak for Data van IBM? Laat het ons weren via onderstaand formulier, dan nemen wij snel contact met je op.