Over data gesproken, elke slechte appel in de mand kan bij gelijktijdig gebruik de rest aantasten
Data gestuurde besluitvorming begon vele decennia geleden met de toepassing van Business Intelligence (BI) en is momenteel een markt van circa 23 miljard dollar. Aanvullend op BI is er intussen een net zo grote markt voor Kunstmatige Intelligentie. Beide markten hebben met elkaar gemeen dat ze data als bouwsteen hebben. Daarom wordt voor beide toepassingen kwaliteit van de onderliggende datastrategie steeds belangrijker. Immers ‘Garbage in’ is ‘Garbage out’. Daarom zien we een nieuwe categorie software opkomen – data intelligence – die moet bepalen of te gebruiken data herleidbaar en betrouwbaar is. Immers, als je de output van een BI- of AI-systeem wilt certificeren, dan moet de grondstof van die eindproducten zelf ook certificeerbaar zijn.
Het ‘maken’ van gekwalificeerde ‘data’ is niet zo eenvoudig als het lijkt. Het gaat niet alleen over de herkomst en reden van het ontstaan, maar ook over de nauwkeurigheid en de normen, richtlijnen en kwaliteitssystemen waaraan die data moet voldoen. Als de mens (nog) in het proces is betrokken, kan die vaak aan de bel trekken als duidelijk wordt dat uitkomsten niet logisch of eenduidig zijn. Echter bij geautomatiseerde systemen – die er steeds meer komen – is die terugkoppeling er niet meer en val je terug op de kwaliteit van de grondstof. Net zoals dat geldt voor elk ander geautomatiseerd productiesysteem. Zeker bij Kunstmatige Intelligentie wordt de menselijke terugkoppeling al veel lastiger, omdat die mens wel moet ‘begrijpen’ wat het AI-systeem doet. Immers, als er een kleine fout optreedt, zal die zich vele malen herhalen en op die wijze uiteindelijk onzin produceren.
Ondanks alle sterke punten van AI, lijdt deze techniek exponentieel onder de aanwezigheid van foute data. Voor betrouwbare AI zijn dus technieken nodig om die kwaliteit vóóraf te meten en dan ook toe te passen. Denk aan de inzet van metadata beheer, datakwaliteit, data governance, master data management, dataprofilering, data curatie en data privacy. Al deze individuele aandacht komt steeds vaker samen onder de paraplu van het algemene begrip ‘data intelligence’.
De markt van ‘data intelligence’ groeit snel, vooral het specifieke onderdeel ‘actief metadata beheer’. ‘Actieve’ metadata is een effectief hulpmiddel om de enorme groei van beschikbare data, actief te kunnen ondersteunen. De data zelf in feite niet meer te overzien, dus zal noodgedwongen via de bijbehorende, veel kleinere metadata moeten gaan. Maar dan moet die metadata wel juist en actueel zijn. Dit kun je realiseren door metadata zelf actieve intelligentie te geven en zijn eigen datasets te (laten) controleren en beheren.
Voorwaarde voor succesvol toepassen van data intelligence is de aanwezigheid van een data-cultuur. Begrijpen hoe een kwaliteitssysteem voor gecontroleerde toevoer en opslag moet worden ingericht. Elke hoogwaardige industrie monitort immers constant zijn grondstoffen toevoer. Voor data als grondstof voor hoogwaardige informatie is dat niet anders. Net zoals we de term ‘pisbakken staal’ hebben voor constructiestaal van lage kwaliteit versus ‘roestvast staal’ dat een veel betere kwaliteit, duurzaamheid en – last bus not least – strikt beheerde kwalificaties bezit. Op dezelfde wijze kun je met ‘pisbakken’ data ook geen hoogwaardige BI en AI producten maken.
Bijna alle organisaties zitten op vele silo’s historische data met vaak twijfelachtige kwaliteit. Toch gooien we die data niet weg, omdat het – net als archeologisch materiaal – nog steeds een bepaalde waarde bezit. Maar archeologisch materiaal zit vol met onbekendheden. Zolang een gebruiker van data zich dat realiseert, is het geen probleem. Besef echter dat het een enorme ‘data-bibliotheek zonder goede catalogus’ is. Je weet pas welk ‘boek’ je hebt gepakt als je het voor je hebt liggen. Deze niet geïnventariseerde data en kennissilo’s zijn de belangrijkste uitdaging om data intelligence goed in te richten. .
Confucius wist 2500 jaar geleden al dat het beste moment om een boom te planten tien jaar geleden was. Het één na beste moment is die boom nu te planten. Deze wijsheid geldt ook voor data-kwaliteit: het een na beste moment is er zo snel mogelijk mee beginnen. We zijn immers in een tijdperk beland dat organisaties steeds meer data gaan delen.
In die nieuwe data-economie gaat het niet alleen om nieuwe waarden creëren, maar ook over verantwoordelijkheid en aansprakelijkheid. Governance, compliance en risico-management zijn de basis voor bestuurlijke verantwoordelijkheden rond datasharing. Te vaak wordt alleen maar naar de aantrekkelijke voordelen en waardecreatie gekeken. Rond data governance is intussen binnen Europa een heel goed kwaliteitssysteem ontwikkeld. Op 25 november 2020 is door de EU een nieuwe verordening inzake gegevensbeheer aangenomen – de Data Governance Act – die een belangrijke pijler is van de EU-datastrategie om een geborgde uitwisseling van gegevens te stimuleren.
De Data Governance Act stelt voorwaarden voor het hergebruik van beschermde gegevens die in het bezit zijn van de publieke sector. Daarnaast stelt het kaders voor de oprichting van en het toezicht op onafhankelijke (commerciële) datadienstverleners en verzamelaars voor zogenaamde altruïstische doeleinden (zonder winstoogmerk). Europa loopt al jaren achter op de VS en China op het gebied van data.
Maar ik heb daar eerder over geschreven, soms kun je als laatkomer juist wel het juiste voordeel uithalen. In de VS regeert de markt, in China regeert de partij. In Europa willen we juist de burger laten regeren. Ingebed in democratische grondrechten en niet de vrije markt, noch een partij of een centralistische overheid.
Hans Timmerman