Zonder bodem geen pizza…
Bij een pizza is de generieke bodem net zo belangrijk als de verschillende vullingen die erop liggen. Een slechte bodem verprutst immers elke pizza, hoe goed en lekker de inhoud ook is. Datzelfde geldt voor een data-platform en de daarop draaiende applicaties. Kwalitatief goede data is het vertrekpunt – en dus bodem – van elke applicatie. Immers er geldt voor alles: ‘garbage in, garbage out’. Hoe beter je de vertrekdata kunt kwalificeren, hoe hoogwaardiger die grondstof is voor de applicatie, des te beter élke output van die applicatie wordt. Procesgerichte kwaliteitsborging begint bij de data-input. Data zijn de grondstof, de bouwstenen en heipalen voor het fundament – de bodem – van onze informatiehuishouding. Slechte datakwaliteit blijkt een belangrijke oorzaak te zijn van het mislukken van digitale transformaties. Daarom zouden bedrijven meer prioriteit moeten geven aan het voorbereiden van een datatransformatie. Immers, als de procestransformatie niet data-gedreven is opgezet, bouwt men de nieuwe informatiehuishouding weer in dezelfde data-silo’s. Zeker als we na die digitale transformatie (straks) willen gaan profiteren van AI, big data en machine learning. Je kunt veel investeren in datalakes, clouds, datawetenschappers en Chief Data Officers, als de data-architectuur of brondata van slechte kwaliteit is, is dat weggegooid geld.
En bedenk dat elke applicatie start met data en eindigt met data. Applicaties en data zijn als yin en yang, ze zijn onlosmakelijk met elkaar verbonden. Zonder applicatie kan men met data weinig doen. Zonder data kan een applicatie weinig uitrichten. Het is het spel van begindata, die verrijken met een applicatie en die verrijkte data weer als potentiele begindata gebruiken. Echter de applicaties zijn vaak veel sexyer dan data. Applicaties hebben direct impact op het proces, de gebruikers, de activiteiten en de output. Terwijl data meer te doen heeft met boekhouding, compliance en comptabiliteit. Een beetje dorre, administratieve wereld.
Datatransformatie, het proces van het organiseren van alle relevante data – en die relevantie vinden is vaak al een uitdaging! – op een wijze dat daarna elke gebruiker op elke plaats in de lifecycle van een proces daar elke view uit kan halen, is cruciaal. Bedrijven gaan er van uit dat ze, omdat ze datalakes, nieuwe clouds, nieuwe datacenters of nieuwe applicaties implementeren vanzelf hun data wel zullen transformeren. Dat is een gevaarlijke aanname. Het nieuwe ERP dat uw bedrijf zes maanden geleden implementeerde, stimuleert de operationele processen niet omdat gegevensproblemen in het legacy-systeem niet werden aangepakt. Het nieuwe CRM waarin uw marketingteam heeft geïnvesteerd om diepgaand klantinzicht te krijgen, levert niet de verwachte ROI op omdat het team geen gegevensbeheer of gegevens-kwaliteitskader heeft.
Veel van deze projecten werden niet succesvol omdat de bodem – het dataplatform – niet op orde was (gemaakt!) voor de nieuwe toepassing. Als organisaties data-gestuurd willen zijn, moeten ze beginnen met het begrijpen van hun gegevens, het oplossen van inconsistenties en het transformeren van hun gegevens. Men moet datacentrisch gaan denken. Het ontwikkelen van basisregistraties van de verschillende data-klassen. Registraties van klanten, producten, gebruikers, leveranciers etc. Niet vanuit processen maar vanuit dataclassificatie. Dit soort datatransformaties is essentieel om succesvol digitaal te kunnen transformeren. Geclassificeerde, centraal toegankelijke comptabele data is de vergelijkbare bodem van elke pizza; als de bodem goed is, kun je er elke pizza op bereiden.
Wat zijn de struikelblokken die we bij digitale transformaties vaak tegenkomen? Gegevens zitten in verschillende afzonderlijke bestanden. Vaak ook nog technische verschillende systemen met verschillende datastructuren die niet te koppelen zijn. Hoe groter het bedrijf, hoe groter de kans dat gegevens in de loop der jaren in vele verschillende dataplatformen zijn opgeslagen. Slechts dataclassificatie en -migratie helpt dan nog om die data weer logisch te ordenen en bij elkaar te brengen. Mensafhankelijke gegevensverzameling vermindert de gegevenskwaliteit. Een typefout, een contextueel begrip van naam of locatie, een gemist nummer enz. Daarom moet de mens zo veel mogelijk worden geëlimineerd uit dataprocessen. Dat geldt bij de bron, de meting, de input maar ook bij elke overdracht en elke verwerking. Data moet in een informatiesysteem de kans krijgen op een centrale plaatst tot rust te komen. Vanuit de operationele database regelmatig naar de data-opslag. In die centrale data-opslag beschikbaar voor iedereen die daar recht op heeft. En slechts in databases als de data in beweging is of moet zijn voor de applicatie. Hoe vaker data tot rust kan komen, hoe stabieler de data-huishouding.
Een bedrijf kan dezelfde consumentengegevens verzamelen voor ander doeleinden. Soms wordt jaar na jaar dezelfde gegevens op tientallen verschillende manieren vastgelegd in verschillende dataomgevingen. Een verzekeringsmaatschappij had het moeilijk met jaarlijkse rapportages vanwege dubbele gegevens die waren verzameld. Een detailhandelaar moest zijn plannen voor bedrijfsuitbreiding met zes maanden uitstellen omdat de gegevens niet het juiste beeld gaven. Welke data staat waar en welke data is de masterdata? Welke data is de goede als voor een productprijs vier verschillende prijzen gevonden worden? Er zijn ook gegevens die geen uniforme bron van waarheid geven: een bank had het moeilijk om persoonlijke ervaringen voor hun klanten te creëren, omdat elk van hun diensten (lening, hypotheek, leningen voor kleine bedrijven, verzekeringen, enz.) zijn eigen gegevensbronnen had. Klantinformatie werd keer op keer op verschillende momenten gerepliceerd omdat ze verschillende diensten van de bank gebruikten waardoor deze klantdata inconsistent werd. Klantdata was soms zelfs zo over verschillende onafhankelijke clouds verdeeld, dat het bijna niet meer was te achterhalen waar überhaupt klantdata aanwezig was. Klant-centrisch werken kan alleen als de klantendata – eerder! – datacentrisch is opgebouwd en georganiseerd.
Data cleansing is een technisch proces dat voorafgaat aan het gebruik van data in BI- of AI-omgevingen. Gegevens die niet zijn geoptimaliseerd, kunnen bijna niet worden gebruikt voor business of artificial intelligence. Als een bedrijf concurrentiekansen of belangrijke inzichten in het publiek hoopt te behalen, kunnen ze dat niet alleen niet doen met onvolledige, onnauwkeurige, verouderde, dubbele gegevens maar ook niet als de goede data vervolgens niet op de juiste wijze is geprepareerd. Net zoals grondstoffen, is kwaliteit en juiste samenstelling van data cruciaal voor een informatieproces en het daaruit voortkomende eindproduct. Goed gemanagede grondstofkwaliteit is immers essentieel om de proceskwaliteit en te kunnen borgen. In de kapitaalgoederenindustrie is dat een no-brainer. In de wereld van datahuishoudens helaas vaak nog niet. Applicaties en clouddiensten worden verkocht als de panacee om alle proces-uitdagingen aan te kunnen. Helaas vergeten ze te vertellen dat dat alleen maar juist is, als de grondstof zuiver en correct is. Want daar zijn de applicatie- en cloud- leveranciers immers niet verantwoordelijk voor.
Dat is immers de klant die dat moet doen . . .
Hans Timmerman