Data en dan het liefst big data worden - zo op het eerste gezicht niet onterecht - gezien als het nieuwe goud. Maar we moeten oppassen voor incorrecte visualisaties.
Een beeld zegt meer dan 1000 woorden kunnen herstellen
De enorme hoeveelheden data die we verzamelen zorgen ervoor dat we het functioneren van systemen beter kunnen volgen en kunnen leren hoe dit varieert van dag-tot-dag. Deze kennis is cruciaal om beter en gerichter te kunnen ingrijpen als zich problemen voordoen of om bepaalde doelstellingen te bereiken.
Nog geen 1 procent
Wereldwijd is er in de afgelopen twee jaar meer data opgeslagen dan in alle jaren daarvoor. Tegelijkertijd wordt er nog geen 1 procent van al die data ooit geanalyseerd of gebruikt. Dat percentage verandert nog wel, alleen al omdat er steeds meer software deels open beschikbaar komt, zoals Tableau, Datawrapper en Power BI. Met die software kunnen we grote hoeveelheden data snel en simpel analyseren en visualiseren.
Gevaar
En daar schuilt ook het gevaar. Analyse van grote hoeveelheden data ontslaat ons niet van de plicht om verantwoord met data om te gaan en op de juiste manier te bewerken tot informatie. Dat is helaas niet altijd het geval. Zelfs al wordt er statistisch verantwoord met de data omgegaan - ook grote datasets bieden geen garantie op representativiteit en dus kans op vertekening - dan nog kunnen er gemakkelijk incorrecte aannames worden gedaan.
Gaaf maar verkeerd
Zo zie ik bij het vak Data Science op de universiteit regelmatig dat de studenten computer science echt hele gave dingen doen met data, maar verkeerde keuzes maken vanuit verkeerskundig oogpunt, bijvoorbeeld bij de datapreparatie. Andersom zie ik trouwens dat studenten civiele techniek die fouten meestal niet maken, maar iets minder gave dingen kunnen met de data.
Daarbij geldt overigens: al worden die fouten niet gemaakt, dan zijn toepassingen van bijvoorbeeld deep learning toch een dusdanige black box dat elke transparantie, en dus ook elke mogelijkheid tot verklaring, ontbreekt. Causaliteit is nu eenmaal iets anders dan een (toevallige) correlatie. Beslissen op grond van onduidelijke correlaties voelt niet goed en geeft ook weinig houvast voor beleid. Kritisch zijn of de methodiek die wordt gebruikt geschikt is voor het trekken van bepaalde conclusies, blijft dus belangrijk.
Omdat een mooi plaatje nu eenmaal meer zegt dan duizend woorden, bestaat het risico dat de informatie in dat plaatje of de animatie wordt geloofd. Bovendien is het soms lastig op het gepresenteerde geaggregeerde niveau te controleren of de informatie op de juiste manier is gegenereerd.
Voorkomen is beter dan voorbarig concluderen
Is dat nieuw? Nee, helemaal niet. Eind vorige eeuw konden we door toenemende computerkracht steeds makkelijker computersimulaties maken. Microsimulatie vond men geweldig, waarbij individuele autotootjes werden gesimuleerd en al snel in 3D-omgevingen konden rondrijden. De beelden waren zo aansprekend, dat de vraag hoe goed de gebruikte modellen die het gedrag van weggebruikers simuleerden waren, nauwelijks werd gesteld.
Hetzelfde zien we nu gebeuren rondom de visualisatie van big data. Het wordt steeds makkelijker - ook voor de relatieve leek - om mooie plaatjes te construeren uit grote hoeveelheden verkeerskundige data. Daar heb je echter de combinatie van datascientists en verkeerskundigen voor nodig om daadwerkelijk relevante en goede beslisinformatie te genereren.
Zo voorkom je dat je inderdaad meer dan duizend woorden nodig hebt om de boodschap of ‘conclusies’ uit de mooie plaatjes te herstellen.
Reactie toevoegen