Hans Timmerman

IT kenner en trendwatcher

Datageletterdheid

26 mei 2020

Dit is mijn allereerste bijdrage voor het Risk & Compliance Platform Europe. Ik zal mezelf eerst even voorstellen. Mijn naam is Hans Timmerman en ik ben, zeggen de kenners om mij heen, een echte kenner op het gebied en trendwatcher. In ieder geval heb ik tientallen jaren ervaring en voel ik mij, kort na het bereiken van de pensioengerechtigde leeftijd nog kwiek en monter. Bovendien vind ik het fijn om mijn gedachten ‘op papier’ te kunnen formuleren, maar dat doen we nu anno 2020 online. Mijn eerste bijdrage gaat over datageletterdheid. Dat is de vaardigheid om databronnen te kunnen ‘lezen’, te kunnen ‘beargumenteren’ en uiteindelijk ‘ermee te kunnen werken’. Deze vaardigheid helpt bij het maken van keuzes, door aan de hand van grote hoeveelheden data, voorspellingen te geven van mogelijke uitkomsten. Omdat geletterd met data omgaan een systematische aanpak vereist, kwam ik in mijn zoektocht op deze leuke zijstap over een systematisch ingedeelde encyclopedie. Naast het alfabet, waar we symbolen (letters) definiëren om woorden, begrippen en daarmee zinnen en boodschappen te kunnen vormen, kennen we ook een digibet. Een set symbolen (bits) waar we digitaal woorden, begrippen en daarmee zinnen en boodschappen kunnen vormen. Net als een alfabeet het alfabet kent, kent een digibeet het digibet. En analfabeet en adigibeet hebben die vaardigheid dus niet . . .In onze digitaliserende wereld is de taal van data steeds belangrijker. Wat is de oorspronkelijke bron en bijbehorende brondata? Welke kopieën zijn ervan gemaakt? En nog belangrijker, hoe is de data aangepast voor verschillende gebruiksdoelen?

Zeker in onze wereld van nepnieuws en de groeiende beroepsgroep van feiten checkers is datageletterdheid een basisvaardigheid. Immers, data zijn net als letters de basis voor begrippen en boodschappen. En de vraag is altijd bij elke boodschap: wat is/was de intentie van een boodschapper om die boodschap te maken en te versturen? In de wereld van Big Data is de uitspraak over statistiek meer dan geldig: Je hebt leugens, grove leugens en statistieken (toegeschreven aan Benjamin Disraeli).

Darrell Huff schreef in 1954 al het boek “How to lie with statistics”. In 2019 verscheen de Nederlandse vertaling ‘Liegen met cijfers’. Wereldwijd het meest gelezen boek over cijfers en statistiek ooit. Cijfers zijn absoluut, terwijl de waarheid dat nooit is. John Maynard Keynes zei al: ‘It’s better to be vaguely right than exactly wrong’. De interpretatie van data en cijfers is belangrijker dan de exacte waarde van die cijfers of die data. De nieuwe big data omgevingen en analytics en hun dataverzamelingen worden vaak zo precies en gedetailleerd doorgerekend dat er schijnprecisie ontstaat. Daarom kan big data niet zonder kennismanagement: wat zie ik, wat meet ik, wat betekent het en wat betekent het beslist (!) niet. Dat laatste is soms zelfs het belangrijkste, waar geeft deze data géén inzicht in.

Data zonder context is en blijft data zonder betekenis. Kennis en inzicht is en blijft nodig om de significantie te herkennen voor het gewenste doel. De oude rekenliniaal was een gereedschap dat zonder kennis en inzicht over wat je berekende, geen waarde had. De tientallen of duizendtallen moest je zelf benoemen en moesten passen in de realiteit van de uitkomst. Daarnaast heeft elke meting een onnauwkeurigheid. En onnauwkeurigheden vermenigvuldigen zich snel als je daarmee gaat rekenen omdat je steeds uit moet gaan van de grootste afwijking. Daarom kun je zonder kennis en inzicht zo heerlijk ‘liegen met cijfers’, de Nederlandse titel van het bovengenoemde boek. De kern van elk nep nieuwsberich, het lijkt zo echt maar ergens is een verkeerde (schijnbaar logische) afslag genomen.

Wat heeft meer waarde? Veel onnauwkeurige data of weinig nauwkeurige data? In de tijd van big data hebben we het steeds vaker over enorme hoeveelheden data. Maar is méér data altijd beter? Waarschijnlijk één van de beroemdste citaten die de kracht van gegevens verdedigen, is die van Google’s onderzoeksdirecteur Peter Norvig die beweerde: ‘Wij hebben geen betere algoritmen. Wij hebben alleen meer gegevens.’ Peter is ook bekend van zijn artikel over “The unreasonable effectiveness of data”. In situaties waar algoritmen niet de beperking zijn dan geldt inderdaad dat steeds meer data een steeds iets betere uitkomst biedt. Typisch het businessmodel van Google.

Maar meer gegevens verzamelen of gebruiken helpt niet altijd. Soms is het beter de beperkte beschikbare data op te werken tot betere data. Data-cleansing: het opschonen van data, het verwijderen van uitschieters en eliminatie van triviale en faliekante fouten vermindert de hoeveelheid beschikbare data: maar de beperktere dataset groeit in waarde. Maar het vraagt inhoudelijke kennis en inzicht om die waardevermeerdering te realiseren. Daarnaast moet de bron benoemd zijn, inclusief de reden waarom die data is gegenereerd en het doel van de verzameling data is. Immers, data zonder een goede benadering is in feite ruis. Ruis: een willekeurige variatie in een signaal dat geen inhoudelijke informatie bevat. Helaas zien we steeds meer data als ruis ontstaan – denk aan de groeiende IoT datasets – die enthousiast worden verzameld, duur worden opgeslagen en helaas uiteindelijk weinig of zelfs geen waarde toevoegen of opleveren.

Omgaan met data vraagt datageletterdheid. Begrijpen en inzien wat waarde van data is. Dat vraagt inzicht in, gevoel over en kennis van die data. Anders ben je ruis aan het verzamelen: dynamisch, veel activiteiten, grote dataverzamelingen maar uiteindelijk weinig toegevoegde waarde. Zonder datageletterdheid ontstaat geen big data capabiliteit. En zonder goede analytics is er uit die met moeite gecreëerde waardevolle dataverzameling op zijn beurt weer weinig waarde te halen. De wereld van big data analytics is een specialistisch vakgebied waar datageletterdheid een generieke deskundigheid is. Die moet je net als ‘gewone’ geletterdheid eigenlijk al in de schoolbanken worden aangeleerd. Dat gebeurt gelukkig zoals hier steeds vaker. Er is zelfs een handboek voor ontwikkeld. Datageletterdheid is een van de belangrijkste vaardigheden, eigenlijk zelfs een kerncompetentie voor de 21ste eeuw.

Hans Timmerman

Hans Timmerman

Datageletterdheid

Plaats uw reactie Reactie annuleren

Nieuwsbrief

Nieuws van PONT | Governance

Whitepapers