Net als bij veel IT-projecten, kun je ook bij het gebruiken van data een 'ijsberg' tegenkomen. Uiteraard is dit geen echte ijsberg, maar een metafoor voor alle aspecten die zich 'onderwater' afspelen en dus vaak niet direct zichtbaar zijn voor de eindgebruikers of minder technisch onderlegde collega's. Deze 'verborgen' elementen worden vaak onderschat, net zoals de omvang van een echte ijsberg.
We praten allemaal over de enorme kansen die data biedt en worden dagelijks geïnspireerd door fantastische dataproducten zoals intelligente AI-toepassingen, voorspellende Machine Learning-modellen en interactieve dashboards die magisch meningen kunnen veranderen door ze te onderbouwen met feitelijke gegevens. Toch zijn organisaties die deze mogelijkheden op grote schaal benutten nog steeds schaars. Slechts 11% van de Nederlandse organisaties beweert succesvol te zijn in het verhogen van hun datavolwassenheid. Er bestaat dus een duidelijke kloof tussen wat er mogelijk is met data en wat er daadwerkelijk gebeurt met data.
Wat ons betreft is het simpel: zonder het aanpakken van de onderwerpen die zich 'onderwater' bevinden, zal het op grote schaal succesvol inzetten van data binnen een organisatie een uitdaging blijven. Met dit artikel willen we je bewust maken van de 'data ijsberg', de verschillende elementen ervan onthullen en je op weg helpen om de relevante onderwerpen in kaart te brengen."
Dé oplossing ?!
Er is helaas niet één standaard pad & oplossing om data succesvol in te zetten binnen iedere organisatie. Dit hangt namelijk af van verschillende factoren, zoals je huidige niveau van datavolwassenheid, je ambities met betrekking tot data en verschillende strategische en organisatorische keuzes.
Je kunt er bijvoorbeeld voor kiezen om bepaalde aspecten uit te besteden of om ze intern te organiseren. Het is ook van belang om te bepalen welke onderwerpen voor jouw organisatie het meest relevant zijn en in welke mate. Hoewel we allemaal te maken hebben met privacy- en beveiligingswetgeving, kan de impact hiervan op jouw organisatie variëren op basis van het type data dat je verwerkt of bezit, de geldende regelgeving en de beslissingen die je als organisatie neemt.
Dit artikel biedt een overzicht van de onderwerpen die zich 'onderwater' bevinden. In afzonderlijke blogs en video's zullen we dieper ingaan op deze onderwerpen en concrete voorbeelden en oplossingen presenteren om je te helpen bij het aanpakken ervan.
Onderwater
Hieronder volgt een opsomming wat er precies onderwater zit en waarom. Daarnaast geven we één tip per onderwerp over hoe je om zou kunnen gaan met dit onderwerp. Overigens zijn veel van deze onderwerpen ook terug te vinden in een data management framework zoals bijv. DMBOK. In onderstaande lijst zit een volgorde en die is er niet voor niks. Toch houdt het niet automatisch in dat je altijd in deze volgorde door deze punten heen moet. Zie het dus als een leidraad. Het is voor elke organisatie verschillend welk onderwerp de hoogste prioriteit heeft.
Je data-organisatie: (creatieve) data heroes
“Een team van mensen uit de organisatie die data gaan gebruiken & promoten”
Wellicht een gek eerste punt, maar zonder nagedacht te hebben over wie er straks aan de slag gaat met alle data die je beschikbaar stelt, zijn alle onderstaande stappen zinloos. Veel organisaties gaan ervan uit dat mensen vanzelf wel weten welke data nodig is om bepaalde besluiten te nemen of om bepaalde processen te verbeteren. Niets is minder waar helaas. Zorg dus dat je vooraf nagedacht hebt over wie de drijvende kracht achter je data initiatieven gaan worden.
Onze tip: maak hier een multidisciplinair team van met mensen en faciliteer creativiteit & out of the box denken. Stel een lijst op met potentiële dataproducten en kies zorgvuldig welke diegene is die het meeste voordeel voor je organisatie oplevert. Kijk daarbij niet alleen naar de waarde maar ook de haalbaarheid.
Data Governance
“Alle processen rondom het bewaken van de data. Van kwaliteit tot vindbaarheid”.
Alle techniek die je als organisatie inzet om je data initiatieven mee te ondersteunen is alleen de investering waard als deze ook gebruikt wordt. Daarnaast hebben alle onderwerpen hieronder wel in zekere mate te maken met een 'onderhoudsaspect'. Het inzetten van data als een eenmalig project zien werkt dus niet. Het is een continue proces waarbij je de hele tijd de link moet zoeken naar de gebruikers & je organisatie. Er is data governance tooling die je kan ondersteunen bij het inrichten & controleren van dit continue proces.
Onze tip: werk bij het inzichtelijk maken van deze processen en verantwoordelijkheden altijd met voor de organisatie herkenbare naamgevingen. Denk aan reeds bestaande afdelingsnamen, productgroepen of de gebruikelijke aanduiding voor je klanten.
Data Architectuur
“Net als bij een huis is het fundament de basis om op door te bouwen”
Net zoals bij het bouwen van een huis is het belangrijk dat je goed nadenkt over je data architectuur. Hier hoef je niet alle onderwerpen direct in te beslechten, maar er zijn zeker wat uitgangspunten waar je vooraf over wil nadenken:
Welke soorten data heb ik (bijv. gestructureerd, ongestructureerd, real-time (sensor) data)
Hoe zorg ik dat ik in controle blijf over alle data die ik heb & verwerk (metadata management)
Over welke data moet ik historie opbouwen?
Welke eisen zijn er ten aanzien van data uitwisselingen?
Onze tip: pak een data architectuur framework erbij zoals bijv. DMBOK die deze leidraad voor je voorschrijft. Mocht je geen architect in huis hebben die ervaring heeft met dit onderwerp, laat je dan op een onafhankelijke wijze begeleiden. Net zoals bij een huis wil je dat de architectuur goed doordacht is. Kleine aanpassingen kunnen daarna nog gemaakt worden, maar grote ingrijpende wijzigingen (in bijv. de constructie) zijn achteraf altijd lastig.
Data Platform (Opslag & Verwerking)
“Buy or build, een modern dataplatform hoef je niet zelf te bedenken & te bouwen”
Als je als organisatie aan de slag wil met je data, dan wil je dat die ergens is opgeslagen zodat je er mee aan de slag kan. Vaak gebeurd dit op één centraal punt in een modern dataplatform om o.a. data-silos tegen te gaan en ervoor de zorgen dat je je data kunt beheren. Het inrichten van een dataplatform gaat vaak gepaard met (inrichtings)keuzes die gemaakt moeten worden die vaak ingrijpend zijn omdat iedereen gebruik moet gaan maken van dit platform. Daarnaast kan er behoorlijk wat technische complexiteit gepaard gaan met het zelf inrichten van een dataplatform.
Onze tip: bepaal of je je dataplatform echt zelf moet ontwerpen & implementeren. Voor 95% van de organisaties is een standaard dataplatform in de public cloud toereikend.
Data koppelingen
“Besteed aandacht aan het beheersbaar ontsluiten van data uit je bronsystemen”
Om je data van je bronsysteem naar je data platform te verplaatsen heb je data koppelingen nodig. Natuurlijk is het rechtstreeks gebruiken van de data in je bronsystemen ook mogelijk, maar vaak levert dit meer beperkingen op dan voordelen. Het onderhouden & operationeel houden van deze koppelingen wordt vaak onderschat. Met name wijzigingen in de bronsystemen en veranderingen van de onderliggende data kunnen een hoofdpijndossier opleveren als je hier niet goed rekening mee houdt.
Onze tip: maak data koppelingen eenvoudig onderhoudbaar door gebruik te maken van een integratieplatform, maak ze niet te complex & beleg de verantwoordelijkheden duidelijk. Neem bij voorkeur koppelingen af als een dienst, waardoor je altijd gegarandeerd bent van up-to-date data & ondersteuning bij eventuele problemen.
Data Modellering
“Gebruik sectorstandaarden als uitgangspunt voor een toekomstvast & direct inzetbaar datamodel”
Het samenbrengen van al je data zodat je het kunt raadplegen gebeurd met behulp van een datamodel. Een goed datamodel helpt je bij de bruikbaarheid en de onderhoudbaarheid van je bedrijfsdata. Indien je je datamodel niet goed op orde hebt zullen gebruikers het lastig vinden om de juiste data te vinden en te gebruiken. Daarnaast wordt onderhoud lastiger en complexer naarmate de hoeveelheid data groeit. Het opstellen van een datamodel waarin alle data van een organisatie past is een complex traject waarbij veel discussies naar voren zullen komen over de definities. Denk bijv. aan "wanneer is een klant een klant?" en "hoe berekenen we onze marge exact?".
Onze tip: maak gebruik van een standaard datamodel die is uitgewerkt voor jouw sector en pas deze aan naar jouw specifieke organisatie. Hiermee neem je een sector-standaard als uitgangspunt waarbij veel discussies al beslecht zijn.
Data Kwaliteit
“Garbage in is garbage out, pak het problem bij de bron aan & controleer de kwaliteit”
Data moet van hoge kwaliteit zijn zodat de gebruikers kunnen vertrouwen op de aangeleverde informatie. Helaas blijkt dit in de praktijk makkelijker gezegd dan gedaan. Veel data kwaliteitsissues worden veroorzaakt omdat in de bron systemen foute informatie zit of omdat er verkeerde aannames worden gedaan bij het transformeren van gegevens en/of het opstellen van berekeningen. De fout die veel data teams maken is dat ze deze kwaliteitsissues gaan oplossen in het dataplatform zelf i.p.v. in de bron. Daarnaast worden er geen goede testen uitgevoerd of de datakwaliteit (nog steeds) juist is door bijv. data kwaliteitsregels op te stellen en deze te testen bij het verversen van de data.
Onze tip: pak foutieve data altijd aan in de bron en stel een datakwaliteitsframework op met concrete regels waarmee je kunt testen of de data die wordt aangeboden aan je dataplatform voldoet aan de door jouw opgestelde voorwaarden.
Data Privacy
“Bepaal altijd of je data mag gebruiken voor het doel wat je wilt bereiken, dit heet doelbinding”
Privacygevoelige data is aanwezig binnen elke organisatie. Net als de verantwoordelijkheid om zorgvuldig om te gaan met de verwerking van deze data. Toch zie je dat veel organisaties niet goed weten welke data ze wel en niet mogen verwerken en dan met name welke gevoelige (persoons)gegevens. Gegevens waaronder BSN of zaken als nationaliteit en politieke voorkeur zijn gegevens waar je niet altijd & zomaar over mag beschikken. De kans is dus groot dat je deze gegevens moet pseudonimiseren of anonimiseren. Een andere optie is het vervangen van de data door synthetische data.
Onze tip: scan binnen je dataplatform op gevoelige gegevens en maak - samen met je privacy officer & de gebruikers van deze data - een plan wat je het beste kunt doen met deze data. In sommige gevallen kan het juist wel gewenst of noodzakelijk zijn dat je over deze gegevens beschikt.
Data Compliancy (Data Lineage)
“Bouw historie op van de (meta)data & logging zodat je altijd kunt traceren hoe bepaalde berekeningen tot stand zijn gekomen. Dit heet Data Lineage”
Met name voor financiële dienstverleners is het belangrijk om aan te kunnen tonen waar bepaalde data in bijv. rapportages vandaan komt. Hierbij is van van belang om aan te kunnen tonen hoe bepaalde gegevens tot stand zijn gekomen (bijv. welke berekeningen & transformaties zijn er los gelaten op je data). Hierbij is het van belang om te vermelden dat je ook terug moet kunnen kijken in de tijd en je dus feitelijk moet kunnen uitleggen hoe een rapport van 2 jaar geleden tot stand is gekomen.
Onze tip: maak gebruik van een data architectuur die historie opbouw ondersteund. Voorheen werd hiervoor direct naar Data Vault gekeken, maar dat is vandaag de dag niet meer altijd de beste oplossing. Indien je gebruik maakt van versiebeheer, soft-delete functionaliteit op je datalake en je data opslaat & verwerkt in Delta formaat, voldoe je aan bijna nagenoeg alle requirements.
Data Security & -sharing
“De tijd dat data nooit je datawarehouse & bedrijfsnetwerk verlaat is voorbij. Voorkom 'shadow IT' en facilteer het veilig delen van data”
Je wilt de data in je dataplatform delen, zowel intern binnen je organisatie als steeds vaker extern. Hierbij dien je rekening te houden met beveiligingsaspecten die jouw organisatie, de ontvangende partij of toezichthoudende instanties aan je platform opleggen. Het versturen van gegevens via de e-mail, FTP servers of WeTransfer diensten wordt sterk afgeraden, aangezien je dan de controle verliest over wat er met deze gegevens gebeurd.
Onze tip: maak een eigen data omgeving waar waar je de data in klaar kunt zetten en blijf zelf in beheer van wie er toegang heeft tot die omgeving. Een dienst als Azure Data Share helpt je daar op een veilige manier bij.
Monitoring & DataOps
“Een data platform kent vele bewegende onderdelen. Faciliteer je team met de juiste tools zodat je zeker weet dat de data actueel & accuraat is”
In de hedendaagse wereld van tools zoals bijvoorbeeld Power BI is het relatief eenvoudig om data uit een bron te halen en deze vervolgens op een dashboard te presenteren. Toch blijkt het regelmatig herladen van deze data voor veel organisaties een uitdaging te zijn. Hiervoor is bijvoorbeeld monitoring nodig en een organisatie die in staat is om actie te ondernemen op basis van deze signalen. Bovendien is het proactief bijhouden en onderhouden van alle bewegende delen in je dataplatform essentieel om ervoor te zorgen dat je dataproducten relevante en actuele informatie blijven leveren.
Onze tip: maak duidelijke afspraken met een multidisciplinair team over wie verantwoordelijk is voor het monitoren & onderhouden van de dataproducten. Stel een monitoringtool in en verzamel de signalen in een centraal dashboard en bespreek dit proces periodiek met elkaar om ervoor te zorgen dat de tevredenheid hoog blijft.
Ongetwijfeld zijn er nog meer voorbeelden van data gerelateerde onderwerpen die zich 'onderwater' afspelen bij het inzetten van data binnen jouw organisatie. Laat gerust een comment achter en deel jouw ervaringen met ons & anderen.
Data-as-a-Service
Wij komen dagelijks in aanraking met de hierboven genoemde onderwerpen van de data ijsberg. In onze data-as-a-service oplossing hebben we een schaalbare & op standaarden gebaseerde oplossing geimplementeerd voor al deze onderwerpen, zodat organisaties niet zelf het wiel opnieuw hoeven uit te vinden. Wil je meer informatie over hoe wij dat oplossen? Plan dan eens een demo in.