In twee vorige artikelen gingen we in op de eerste twee componenten van het smart analytics framework: dashboards en self service. In dit artikel bespreken we de derde component van het framework: Data Science. We vertellen hoe je data science kunt inzetten binnen jouw organisatie en hoe data science helpt om blijvend te innoveren en waardevolle resultaten te behalen.
Naast goede dashboards en het invoeren van een beheersbare manier van self service analytics, zijn bedrijven steeds meer op zoek naar manieren om te innoveren op basis van inzichten die verborgen liggen in de enorme hoeveelheid beschikbare data. Dit is waar data science om de hoek komt kijken: het toepassen van statistiek, machine learning en artificial intelligence om modellen te ontwikkelen die toekomstige gebeurtenissen kunnen voorspellen op basis van historische data. Denk bijvoorbeeld aan het voorspellen van koopgedrag, storingen of onderhoudskosten. Of aan het oplossen van use cases als:
- Kunnen we de hoeveelheid fraudegevallen bij aanvragen terugdringen?
- Is het mogelijk om te voorspellen welke producten komend kwartaal goed gaan verkopen?
- Hoe kunnen we klanten persoonlijker benaderen in onze e-mailcampagnes?
Als data science goed wordt toegepast, levert dat modellen op die gebruikt kunnen worden om ingrijpende innovaties door te voeren in producten, diensten, processen en systemen. De ontwikkelingen in (statistische) technieken en software-oplossingen voor data science gaan razendsnel en er worden indrukwekkende analysetoepassingen ontwikkeld. Denk maar aan de Google Duplex AI-assistent die in staat is zelfstandig een telefoongesprek te voeren om een restaurant te reserveren. Maar lang niet iedereen is in staat om goed gevalideerde inzichten uit data af te leiden. Hoe pas je data science dan wel succesvol toe binnen de organisatie? Het smart analytics framework geeft daarvoor drie belangrijke richtlijnen.
1. Maak ruimte voor het ontdekken van waarde
Bedrijven bezitten veel data zonder te weten welke inzichten erin verborgen liggen. Met data science zoek je naar verbanden en trends in data die nog niet ontgonnen is. Data scientists moeten ruimte krijgen om de nieuwe waarde van data te ontdekken. Er kunnen alleen successen geboekt worden als het ontdekken van deze nieuwe waarde een structureel onderdeel van de organisatie wordt gemaakt. Wat bedoelen we precies met deze ruimte?
- Een formele plek in de organisatie, bijvoorbeeld in een ‘datalab’.
- Werkruimte om als team, samen met de opdrachtgevers te werken.
- Ruimte binnen de data-architectuur om vrijelijk data te gebruiken en combineren.
- De mogelijkheid om externe data te combineren met interne data.
- Toestemming om alternatieve tooling te gebruiken.
Om te voorkomen dat experimenten van data scientists niet leiden tot echte innovatie, is het belangrijk dat alle experimenten gebaseerd zijn op concrete cases uit de organisatie. En dat de eigenaar (de product owner) van zo’n use case nauw betrokken is bij de implementatie en validatie van het voorspellende model. De product owner brengt immers veel business kennis in. Data science is namelijk meer dan alleen het bouwen van statistische modellen. Volgens de Amerikaan Drew Conway bestaat data science uit drie kennisgebieden: statistics, computer science en business knowledge.
Het is van groot belang dat al drie deze kennisgebieden goed vertegenwoordigd zijn in data science projecten. Bij veel organisaties ligt de focus van data science teveel op de technische kant, oftewel statistics en computer science. Het risico is dan dat er allerlei trends en verbanden worden ontdekt die geen echte waarde voor het bedrijf hebben. Maar er zijn ook organisaties waar het net andersom is. Business users gaan zelf aan de slag gaan met data science, gebruikmakend van slimme intuïtieve tools, maar zijn niet opgeleid om duiding te geven aan statistische modellen.
Business kennis is meer dan begrijpen wat je organisatie doet en welke processen er zijn. Het gaat ook over het begrijpen en context geven aan een model. Deze kennis kan niet allemaal bij een data scientist zitten. Daarom moet er in een data science project altijd nauw samengewerkt worden tussen data scientists en de business.
Daarnaast is het belangrijk een vast proces te volgen bij het uitwerken van een use case:
1. Begrip van de use case: probleemdefinitie en prioritering op basis van de samenhang met de strategische doelstellingen.
2. Dataverzameling: zoeken naar bruikbare en betrouwbare data, intern en extern, gestructureerd en ongestructureerd.
3. Dataverwerking: onderzoeken, opschonen en structureren van beschikbare data.
4. Data exploratie: aggregeren, segmenteren en visualiseren van data om belangrijke variabelen te identificeren.
5. Modellering: bouwen, trainen en testen van een voorspellend model, validatie van uitkomsten en verdere verfijning van het model.
6. Communiceren: visualiseren en presenteren van de uitkomsten en conclusies aan de probleemeigenaar terugkoppelen.
Een use case wordt uiteraard op een agile manier uitgewerkt. Zo worden opgedane inzichten direct gebruikt om bijvoorbeeld de probleemdefinitie te verbeteren, data op te schonen, meer of betere data te zoeken en/of andere modellen toe te passen.
2. Gebruik slimme technieken zoals machine learning en deep learning om te voorspellen
Data science draait om de toepassing van wiskundige modellen die in staat zijn patronen te herkennen in data die met het blote oog niet waarneembaar zijn en gebruikt kunnen worden om toekomstige gebeurtenissen te voorspellen. Op basis van machine learning technieken kan een voorspellend model worden gebouwd en gevalideerd op basis van grote hoeveelheden historische data. Dit model kan vervolgens worden gebruikt om op basis van nieuwe ‘enkelvoudige’ data een score of voorspelling van de uitkomst te geven:
- De kans is 80% dat deze aanvraag een fraudegeval is.
- Komend kwartaal zal er een stijgende vraag zijn naar kant-en-klaar maaltijden.
- Deze klant is vooral geïnteresseerd in boeken, tassen en schoenen.
Een model levert bovendien inzichten op over de samenhang tussen de factoren die in het model zijn meegenomen en welke invloed deze factoren hebben op de voorspellende waarde.
Bij het beantwoorden van de use case is het belangrijk dat een data scientist de goede techniek kiest om te modelleren. Hiervoor heeft hij of zij kennis nodig van de beschikbare technieken en basisbegrip van de onderliggende werking. Onderstaande plaatje geeft een overzicht van de beschikbare machine learning technieken. Machine learning modellen kunnen verdeeld worden in twee groepen: supervised en unsupervised. Bij supervised modellen is de uitkomst die je wilt voorspellen bekend (in de historische data) waar die bij unsupervised niet concreet terug te vinden is in die data. Als we nu even de voorbeeld use cases uit de inleiding erbij pakken, dan past bij de fraudevraag de supervised learning classificatie.
- Kunnen we de hoeveelheid fraudegevallen bij aanvragen terugdringen?
- Model: classificatie algoritme vergelijkt historische aanvragen (waaronder fraudegevallen) op ‘verdachte’ kenmerken en berekent een model dat de kans op fraude voorspelt op basis van de kenmerken van de aanvraag en de aanvrager.
- Toepassing: voor iedere aanvraag wordt real-time een score berekend met het ontwikkelde model, aanvragen met een fraudekans > 65% wordt handmatig gecontroleerd.
- Resultaat: minder fraudegevallen en een sneller en minder tijdrovend aanvraagproces. Machine learning modellen kunnen nog verder uitgesplitst worden in soorten. Voor supervised learning zijn er vraagstukken waarbij de uitkomst een continue schaal heeft (omzet, aantal mensen) en problemen die een classificatie als uitkomst hebben (wel of geen fraude, groepering van e-mails op basis van sentiment). Unsupervised modellen zijn in te delen in algoritmes die objecten (klanten, producten) clusteren in groepen en algoritmen die werken met afgeleide kenmerken (features) van de onderliggende data, bijvoorbeeld sets van vragen uit een enquête die over hetzelfde onderwerp gaan.
De data scientist heeft dus een scala aan gereedschappen tot zijn beschikking waarmee hij per situatie moet bepalen welk model de beste en meest betrouwbare voorspelling kan doen. Om het juiste model te kiezen voor elke use case is het nodig om kennis te hebben van statistiek, programmeren en domein/business kennis. De technologie van machine learning is krachtig, maar alleen als hij in goede handen is.
3. Zet experimenten om in waardevolle resultaten
In de praktijk blijkt vaak dat de uitkomsten van use cases niet ‘in productie worden genomen’, omdat vooraf niet goed is nagedacht over de vraagstelling en de vertaalslag naar implementatie van de uitkomsten. Of vanwege technische barrières die een juiste implementatie in de weg staan. Een data science project heeft alleen zin als de resultaten uiteindelijk ook echt worden toegepast en structureel worden gebruikt. Dat betekent dat er van te voren goed nagedacht moet worden over de implementatiemogelijkheden. Het is daarom essentieel om, voordat je start met het bouwen van een data science model, te weten wie ermee gaan werken en op welke manier. Je wil weten of je het model kunt implementeren in processen en werkwijzes, of integreren met applicaties of digitale kanalen. Daarnaast moet het model gebruiksvriendelijk en begrijpelijk zijn voor de eindgebruikers en moeten zij vertrouwen hebben in het model en de onderliggende patronen.
Maar je bent er nog niet als je het ontwikkelde model of algoritme hebt toegepast. Data science is een proces waarin je continu evalueert en zoekt naar verbetermogelijkheden. Het steeds weer monitoren van de modellen die je ontwikkeld hebt, zorgt voor duurzame oplossingen in plaats van tijdelijke quick wins. Zorg daarom dat je altijd blijft:
- Valideren: het voortdurend blijven afzetten van de uitkomsten van het model tegen de werkelijkheid.
- Experimenteren: het zoeken naar mogelijkheden om het model nog beter en betrouwbaarder te laten voorspellen door het toevoegen van nieuwe variabelen of het onderzoeken van de samenhang tussen de verschillende parameters van het model.
- Optimaliseren: het verkennen van manieren om de implementatie efficiënter te maken door gebruik te maken van andere technische hulpmiddelen.
- Specialiseren: het onderzoeken van manieren om het gebruikte algoritme nog meer toe te spitsen op het specifieke systeem.
- Generaliseren: het gebruikte algoritme breder toepasbaar maken, waardoor het ook voor andere problemen ingezet kan worden. Soms blijkt een model dat gemaakt is voor een afdeling ook bruikbaar voor een andere afdeling.
Data science mag dan het hipste werk van het moment zijn, om er succesvol in te zijn moet je ook de aspecten structuur, planning en organisatie goed regelen. Door de juiste setting te creëren in je organisatie om op een professionele manier data science te bedrijven, kom je echt tot blijvende innovaties die geld opleveren. Op die manier zal iedereen in je bedrijf die een bijdrage levert aan data science veel efficiënter en effectiever werken.
Wat ga jij morgen anders doen om te zorgen dat data science echt waarde creëert?