(BIG) DATA – INSPIREREN

Op deze pagina staat een long read over (big) data. De long read gaat over voordelen en nadelen. Over ethische vragen en over al die zaken waar je over na moet denken als je aan de slag gaat met data. In de long read staan verwijzingen naar artikelen, video’s e.d. De long read valt onder Creative Commons, maar de afbeeldingen, verwijzingen, clips en video’s niet altijd. Het is dus belangrijk dat u zich daar zelf van op de hoogte stelt, als je materiaal wilt gebruiken. Bij twijfel, check de website van creative commons.

De volgende 4 onderwerpen worden behandeld:

  1. Wat is (big) data eigenlijk? En waarom schrijven zoveel mensen het met hoofdletters?
  2. Wat zijn de voordelen van (big) data?
  3. Wat zijn de nadelen van (big) data? (Big) data, big problems;
  4. Wat is data fundamentalisme?
  5. En hoe moeten we naar de toekomst omgaan met (big) data?

Uiteindelijk laten we je – hopelijk – verward achter. Of wijzer. En als je geen zin hebt in al die tekst. Bekijk dan de onderstaande video. Die is minder uigebreid dan de tekst, maar je bent wel in  dik 5 minuten klaar!

Wat is (big) data eigenlijk?

Om te beginnen, de grote vraag: waarom schrijven we toch altijd Big Data met hoofdletters? In deze long read doe ik dat bewust niet, zeker omdat niemand me kan vertellen waarom dat zou moeten. Verder lijkt het me niet zo belangrijk. Mocht je het niet met me eens zijn, dan kun je er hier (discussieforum op English Language – site) lekker over discussiëren. Daarnaast is het je wellicht al opgevallen dat ik (big) consequent tussen haakjes schrijf. In de vorige zin ook. Superconsequent dus. De reden daarvoor is dat discussies over de voor,- en nadelen van data en de ethiek van data zowel horen te gaan over data die wordt gezien als big en data die niet onder die definitie valt. Ik leg dat nog wel uit.

Er is overigens geen vaststaande definitie van big data. Er zijn natuurlijk wel pogingen gedaan. Een manier die vaak gebruikt wordt om te bepalen of iets (big) data is, is om te kijken of de data voldoet aan de  5 V’s‘ (artikel via LinkedIn):

–  Het gaat namelijk om veel data (Volume);
–  Het gaat om data die snel wordt geproduceerd en snel verandert (Velocity);
–  Het gaat om veel verschillende type data, vaak ongestructureerd (Variety);
–  Het gaat om de betrouwbaarheid (Veracity);
–  Het gaat er om dat je er waarde uit kunt halen (Value).

Je zou ook kunnen zeggen (of misschien wel beter kunnen zeggen) dat big data een ontwikkeling (artikel, De Correspondent) is. Het wordt steeds eenvoudiger (en goedkoper!) om data te verzamelen, bewaren en bewerken en de statistiek (en algoritmes) worden steeds beter. Maar óók als je data niet voldoet aan één van deze v’s dan is het nog steeds belangrijk om goed te kijken naar de voor,- en nadelen. Ook data zonder het predicaat big heeft zo zijn voor,- en nadelen. Laten we – zoals beloofd – beginnen met de aan de horizon glorende voordelen.

Wat zijn de voordelen van (big) data?

De volgende voordelen worden hieronder besproken:

  1. Het denken in digitale tweelingen;
  2. Het voorspellen (vooral van de toekomst);
  3. Het mogelijk maken van objectieve besluitvorming;
  4. De brandstof voor Machine Learning.

Digitale Tweeling
Er komt steeds meer data. Vrijwel alles wat je doet laat een dataspoor na en dat wordt alleen maar meer. Denk maar aan al die e-mails, documenten, posts, likes, appjes en ga zo maar door. Inmiddels hebben ook veel apparaten een internetverbinding. We noemen die apparaten dan vaak smart. Geen idee waarom, alleen een internetverbinding maakt iets nog niet smart. Sterker nog, ik ken hele domme apparaten met een internetverbinding, zoals de Hapifork (website van het product). Deze houdt bij hoe snel je eet, en als je te snel eet gaat de vork trillen. Smart! Je auto heeft een internetconnectie, je tandenborstel, je weegschaal, je energiemeter en steeds vaker je speelgoed, wat weer leidt tot intrigerende verschijnselen als een smart Barbie. (Artikel in The Guardian). Langzaam krijgen alle apparaten een internetverbinding,  zijn er overal camera’s en ga zo maar door.

Gerelateerde afbeelding

Naast al die apparaten meten we ook steeds meer aan ons zelf. We noemen dat de Quantified Self – beweging. Het gaat dan nu nog meestal om aantal stappen, hartslag en slapen, maar het is de voorspelling dat we steeds meer gaan meten. Bij de achtergrond – informatie vind je ook een long read over de Quantified Self met de vraag of succes straks echt een keuze is.

Al die data samen zorgen ervoor dat we anders naar onze ‘werkelijkheid’  kunnen kijken. We zien een wereld met onze ogen, maar we kunnen ook naar een digitale afdruk van die wereld kijken. De digitale tweeling. Dat betekent dat we er een perspectief bij krijgen en dat biedt vele mogelijkheden om onze wereld beter te begrijpen. Mijn favoriete voorbeeld, is van de data van Pornhub (2017 year in review op Pornhub – let op voor je werk!). Daar kun je zien dat Russen daadwerkelijk snel klaar zijn.

Meer data is dus vaak beter. Je ziet nieuwe dingen, zoals Kenneth Cukier in zijn Ted Talk betoogt. Hij geeft daar – tussen zijn irritante manier van ademen door – een fascinerend voorbeeld over appeltaart. Lang is gedacht dat appeltaart de favoriete taart van Amerika was. Immers, het werd het meest verkocht. Tot dat de supermarkten ook kleine éénpersoonstaarten gingen verkopen. Toen bleek appeltaart helemaal niet zo populair. Appeltaart bleek vooral die taart, die iedereen wel lekker vond en die je dus kocht als er alleen maar grote taarten waren. Overigens kent Kenneth aan zijn kledingstijl te zien, ook de term Big Suit. Met hoofdletters!

Dit betekent dus ook dat de grote problemen van onze wereld (klimaat, gezondheid, vervuiling eten, etc…) veel beter kunnen worden aangepakt als je over grote hoeveelheden data beschikt om deze problemen te begrijpen. Gezien de omvang van deze problemen is (big) data misschien wel de énige manier om deze data aan te pakken.

Nog een voorbeeld, uit Amerika, waar ze via een app op een Smartphone kuilen in de weg detecteren. De app voelt de schok, registreert dat, en alle gegevens worden slim vertaald in een opdrachtenbon voor de afdeling gaten vullen van de wegendienst.

Voorspellen
Als je veel data hebt, en je begrijpt dingen, dan kun je ook de toekomst gaan proberen te voorspellen (artikel van Marketingfacts). Dit kun je doen op een macro-niveau. Je kunt bijvoorbeeld voorspellen waar er veel misdaad zal plaats vinden of waar het gaat branden en op die manier je politie,- of brandweer- corps slimmer inzetten. Bij Fontys kunnen we (bijna) voorspellen wat de impact is van het weer (regen!) op het aantal studenten dat naar school komt. Op die manier kun je voorspellen wat de drukte zal zijn, en je inkoop van broodjes in de kantine (bijvoorbeeld) daarop aanpassen. Restaurants kunnen veel beter voorspellen wanneer het druk is, maar ook wat mensen op welke dagen en bij welk weer bestellen en op die manier inkoopvoordelen halen. Als je weet hoe mensen door de winkel of de winkelstraat bewegen, kun je die slimmer inrichten.

Maar je kunt ook voorspellen op micr0-niveau. Als je veel data hebt over de normale houding van een chauffeur, dan weet je dus ook wanneer een chauffeur in slaap dreigt te vallen en kan de auto ingrijpen. Als je veel data hebt over hoe iemand online winkelt, kun je ervoor zorgen dat hij of (meer waarschijnlijk) zij precies de aanbiedingen krijgt die bij de persoon passen. Er is steeds meer informatie, de tijd die je hebt is beperkt, dus filters die precies laten zien wat jij wilt weten zijn van groot belang. Je kunt gedrag zien bij een  student dat duidt op uitval, en tijdig ingrijpen.

En zo zijn er ontzettend veel mogelijkheden.

Objectieve besluitvorming
Door middel van (big) data kun je – althans in theorie – ook objectievere besluiten nemen. In plaats van dat je iemand laat beoordelen door een subjectief iemand die slechts beschikt over een beetje gegevens en veel gevoel, laat je de besluiten nemen op basis van data. Op die manier kun je bijvoorbeeld kijken of iemand bij je bedrijf past. Of bij je verzekering. Of dat een student bij een numerus-fixus-opleiding wel of niet toegelaten moet worden. Je kunt data ook mee laten wegen bij strafbepaling. En ga zo maar door. Er zijn veel mensen die juist beweren dat dit leidt tot oneerlijkheid. Als de systeem bevooroordeeld is, dan is het algoritme ook bevoordeeld. Dat klopt, maar uit onderzoek blijkt, dat de algoritmes in ieder geval beter functioneren dan mensen.

Algoritmes hoeven niet perfect te zijn, alleen maar beter als mensen.

Machine leren en kunstmatige intelligentie
(Big) data is de brandstof waarop machine – leren ontwikkeld kan worden. Het idee van machine – leren (een onderdeel van kunstmatige intelligentie) is dat je bepaalde basisregels programmeert en dat de computer daarna, op basis van enorme hoeveelheden data, zelf gaat leren. Elke keer als je zoekt op een afbeelding van een kat op Google, en je klikt op een kat bij Google Afbeeldingen, dan leert Google op de achtergrond hoe een kat er uit ziet. Machine – leren biedt enorme mogelijkheden. Denk aan het herkennen van kankercellen, zelfrijdende auto’s, chatbots en ga zo maar door. Hoe meer data je hebt, over hoe meer zaken, hoe meer je machine-leren kunt inzetten voor allerlei problemen.

Nog een voorbeeld. Stel je wil een computer Pac-Man leren spelen. Vroeger moest je de computer dan helemaal programmeren. Dit zijn de spookjes, die zijn gevaarlijk. Je moet de blokjes opeten. Als je er links in gaat, kom je er rechts uit. Dit zijn de beste looplijnen, etc…. Nu vertellen ze de computer alleen dat het de bedoeling van het spel is om zoveel mogelijk punten te halen. De computer begint, verliest, begint opnieuw, verliest, leert, verliest, leert en een half uur later heb je de beste Pac-Man speler aller tijden. Helaas werkt dat niet bij alle spellen. En waarom, dat is nog niet duidelijk.

Samenvattend
Oké, dus (big) data gaat ons helpen om meer inzicht te krijgen, de grote problemen aan te pakken, gedrag te voorspellen en ons te voorzien van de juiste informatie.  Het gaat de besluitvorming eerlijker maken en ons helpen allerlei processen te verbeteren middels machine-leren. Perfect! Of zijn er ook nadelen? Toch wel.

Wat zijn de nadelen van (big) data?

De volgende nadelen worden hieronder besproken:

  1. (Big) data. Big problems;
  2. Data is niet neutraal;
  3. Data – analyse is niet neutraal;
  4. Algoritmes zijn niet transparant;
  5. Profilering;
  6. Feedback ontbreekt;
  7. Roofdieren;
  8. Nieuwe ethische dilemma’s.

(Big) Data. Big Problems
Apofenie is een verschijnsel waarbij mensen in willekeurige gegevens patronen herkennen en daar betekenis aan toekennen. Afbeeldingsresultaat voor toasted bread jesusEen geweldig voorbeeld is dat in Amerika mensen continu overal de afbeelding van Jezus of Maria zien. In een olieplas, in gemorste latex en mijn favoriet: in getoast brood. Zeker 200 keer per jaar. Helaas kun je al sinds 2011 ook toasters kopen, die Jezus in je brood drukken (artikel Daily Mail), wat natuurlijk de magie wat minder maakt. Apofenie wordt ook gebruikt in de Holzman Inktblot Test (Wikipedia site) waarbij mensen dingen moeten herkennen in inktvlekken.

Apofenie zie je ook Big Data. Sterker nog als je maar genoeg data hebt, dan vind je altijd en overal wel overtuigende correlaties (artikel op scienceblog) dat zegt echter niets over causaliteit. Even voor de niet statistici onder ons (zoals ik). Correlatie is als twee variabelen op een ordelijke manier een samenhang vertonen. Causaliteit is een oorzaak – gevolg relatie.

Op de site Spurious Correlations van Tyler Vigen, staan allerlei fantastische voorbeelden. Mijn favoriet (en ik ben daarin niet alleen) is de correlatie tussen de kaas-consumptie per hoofd van de bevolking en het aantal mensen dat sterft doordat ze verstrikt raken in de bedlakens.

Een ander toppertje van Tyler Vigen is de overtuigende correlatie tussen het aantal mensen dat verdrinkt in een zwembad en het aantal films waarin Nicholas Cage speelt. Kortom, als Nicholas Cage een jaartje vrij neemt, hoef je niet meer op je kinderen bij het zwembad te letten. Of toch wel?

Zeker wel, want correlatie zegt dus niets over causaliteit. Om oorzaak en gevolg te kunnen bepalen heb je meer nodig dan (big) data. Je hebt ook gezond verstand nodig en verstand van het fenomeen waar je naar kijkt. Hoe meer data er is, hoe belangrijker dat wordt.

O ja, en causaliteit gaat over oorzaak en gevolg. Die kun je ook makkelijk door elkaar halen. Want was is nu de oorzaak en wat is het gevolg. In het boek Appen is het Nieuwe Roken wordt onderstaand voorbeeld gebruikt.

Mensen die bij de hoofdingang van het ziekenhuis staan te roken, doen dat waarschijnlijk omdat ze door het roken in het ziekenhuis zijn beland. Of weten ze misschien dat roken slecht voor je is, hebben ze snel een pyama aangetrokken en gaan ze voor de zekerheid dus alvast bij de ingang van het ziekenhuis staan?

Succesvolle bedrijven hebben tevreden medewerkers. Of leiden tevreden medewerkers tot succes? Succesvolle studenten maken zijn vaak on-campus. Of leidt vaak on-campus zijn tot succes? En daarnaast zijn er natuurlijk vaak heel veel factoren die elkaar beïnvloeden en zijn rechtlijnige oorzaak-gevolg relaties hartstikke zeldzaam.

Data is geen natuurverschijnsel
Er wordt vaak gedaan alsof (big) data er ‘gewoon is’. Maar dat is natuurlijk niet zo. Data is geen natuurverschijnsel. Data noemen we wel eens ge-geven. Maar het is ons niet ge-geven. Je moet het oogsten. Je moet er iets voor doen, je moet meten. Je moet data verzamelen. En dus maak je keuzes. Wat ga je meten? Wat kun je meten? Hoe ga je meten? Wanneer ga je meten? En die keuzes zijn bepalend. En verre van objectief.

Eerder gaf ik het voorbeeld van iphones die kuilen in de weg registreren die vervolgens gevuld kunnen worden. Lijkt niks mis mee. Maar wat bleek. In arme buurten gaan mensen vaak met de bus én hebben ze geen smartphone of wel wat beters te doen. Dat geldt ook voor buurten waar veel ouderen wonen. Het gevolg is dat juist in die buurten minder gaten gevuld worden.

Data is dus niet neutraal. In zijn Godwin – lezing (De Correspondent) stelt Maxim Februari op een heldere manier vragen bij de neutraliteit van data en daarmee het in zijn ogen misplaatste data – optimisme. Data heeft dus misschien de schijn van neutraliteit, maar data is verre van neutraal. Vooroordelen zijn ook onderdeel van keuzes om data te verzamelen.

En omdat data geen natuurverschijnsel is, moet je er steeds kritisch naar kijken. Klopt die verzameling wel? Bijvoorbeeld: als we kijken naar de gebruikers van het spelletje Farmville, dan zien we dat er heel veel uit Beverly Hills komen. Dat is raar. Of is misschien 90210 gewoon de bekendste postcode in Amerika?

Data is eigenlijk net zo neutraal als de vragen die je stelt in een vragenlijst. Niet dus. Zoals Kate Crawford (Harvard) stelt, data is iets wat we creëren, maar ook bij elkaar fantaseren. Een ander voorbeeld. Rondom Hurricane Sandy werden 20 miljoen tweets gestuurd. Die kun je analyseren, maar zonder context trek je de verkeerde conclusies (artikel op Wired.com). Immers, de hardst getroffen gebieden (Breezy Point, Coney Island) twitterden weinig simpelweg omdat ze te druk waren met de storm, minder geïnteresseerd zijn in twitter of geen batterij of verbinding (meer) hadden. In Manhattan, waar het wel meeviel, daarentegen werd volop getwitterd. De data wees er op dat de ramp zich vooral voltrok in Manhattan. De werkelijkheid was heel anders.

Nog een ander beroemd voorbeeld is Google Flu Trends (GFT). Op basis van zoekopdrachten op griep-gerelateerde symptomen kon Google al in 2008 griepepidemies volgen en voorspellen. Het werd het uithangbord van (big) data, maar later, toen het meer media-aandacht kreeg en de data toenam, zat Google er 140% naast en werd het het uithangbord van problemen met (big) data. Lees de analyse hier (artikel op Wired.com).

Weet je nog dat ik – bij de voordelen – zei, dat één van de voordelen van (big) data is dat je kunt voorspellen? Zo’n applicatie is bijvoorbeeld PredPol of Comstat. Die applicaties laten zien waar de meeste misdaad wordt gepleegd, en voorspellen dat met bewegende vierkanten op een kaart. Op die manier kan je de politie goed inzetten, en vermindert de misdaad. Klinkt goed, toch. Maar als we beter kijken, zien we dat vooral kleine misdaad goed te voorspellen is, want dat gebeurt veel, en daar is veel data van beschikbaar. Data is immers niet neutraal en niet altijd beschikbaar. Je kunt prima voorspellen waar in het openbaar gedronken wordt, geluidsoverlast is, wordt rondgehangen, in een auto ingebroken, geblowd, etc… Het is bijna niet te voorspellen waar ingebroken wordt, laat staan waar wordt verkracht of vermoord of gefraudeerd met de belastingdienst. PredPol en Comstat zorgen er dus voor dat de politie ingezet wordt op kleinere misdaad, en die vindt plaats waar armoede is. Daar worden dus meer overtredingen gesignaleerd en een negatieve spiraal wordt versterkt.

Je zou dus ook kunnen zeggen dat het werken met deze data, misschien onbedoeld, armoede criminaliseert.

Data – Analyse is niet neutraal
In de vorige paragraaf hebben we een eerste probleem met besluitvorming op basis van data vastgesteld: de data zelf is namelijk niet neutraal. Dat moet je dus zwaar meewegen. Maar ook als je dat doet, is het goed om te beseffen dat de algoritmes die de data analyseren ook vrijwel nooit neutraal zijn.

In haar boek Weapons of Math Destruction (ja,ja, woordspeling!) laat Cathy O’Neil stap voor stap zien hoe algoritmes volgebakken zitten met vooroordelen en op die manier bijdragen aan ongelijkheid en discriminatie in plaats van het tegenovergestelde. Je kunt bijvoorbeeld met data nagaan of een verdachte kans maakt op recidive. Dit doe je door je bijvoorbeeld af te vragen of hij/zij al eerder in aanraking is gekomen met de politie. Máár als je dan ook weet dat in sommige staten in Amerika de zwarte bevolking 5% is, en het aantal random aanhoudingen van de verkeerspolitie van zwarte bestuurders bijna 40%, dan weet je ook dat het antwoord voor een afro-american dan sneller ‘ja’ zal zijn. Zet je zo iemand dan ook langer vast, komt hij/zij langer in aanraking met andere criminelen, wordt de kans op een baan kleiner, en de kans op recidive groter. En dus zeg je, het algoritme werkt. Maar dat is dan dus niet zo.

Algoritmes zijn, volgens Cathy, meningen verpakt in code. Aan de andere kant blijkt uit dit artikel op Harvard Business Review, dat algoritmes misschien niet objectief zijn, maar altijd nog objectiever dan mensen.

Ook op grote lijnen, kun je van alles met data – analyses. De oude uitspraak: je hebt leugens, grote leugens en statistieken, geldt natuurlijk ook voor hoe je data presenteert. Experimenten hebben aangetoond dat je met dezelfde data-visualisatie software elkaar compleet tegensprekende visualisaties kan maken van dezelde dataset (in opdracht van het Rathenau – instituut, paragraaf 5.1). Kortom, de data is niet neutraal, de analyse ook niet, de algoritmes niet, noch eventuele visualisaties.

Data – Analyse & algoritmes zijn niet transparant
Algoritmes die op basis van data allerlei conclusies trekken of nieuwe inzichten geven zijn meestal niet transparant. De reden hiervoor is uiteraard dat anders mensen het systeem gaan ‘zitten fucken’. Bijvoorbeeld (shocker) de trending topics in Twitter zijn écht niet de topics die het meest genoemd worden. Maar hoe je dan wel een trending topic wordt, is onduidelijk. Ergens wel terecht, want als je zou weten hoe het werkt, gaan mensen allerlei onderwerpen in hun eigen belang trending maken. Echter, het wordt veel problematischer als het allerlei gevolgen voor je heeft. En je weet het vaak niet eens.

Een ander voorbeeld van een niet transparant algoritme is wat er gebeurde met YouTube. Een tijdje geleden besloot YouTube om het algoritme zo te veranderen dat vloggers met clips die langer duren (15 minuten +) en elke dag verschijnen hoger scoren op de aanbevolen clips. En als je verschijnt in de aanbevolen clips leidt dat tot meer views. De reden hiervoor was uiteraard dat YouTube dan meer kijkers krijgt, die langer kijken (en dus meer data, advertentie-inkomsten). Maar wie kan er elke dag 15 minuten of meer posten, juist mensen die bagger maken. Die meelullen met videospelletjes of zomaar wat filmen. Kortom, het algoritme leidt tot een afname van de kwaliteit. Of, oneerbiedig gezegd, het algoritme voedt onze kinderen bagger.

Overigens als data analyse wel transparant is, ontstaan er ook allerlei problemen. Stel je hebt, net als in Amerika, een ranking van universiteiten. Deze ranking kan niet het belangrijkste meten (wat heb je geleerd), maar wel allerlei andere indicatoren, zoals scores, uitval, donaties van alumni, sponsors, kans op een baan, etc… Het gevolg is dan dat de scholen zich juist volledig op deze indicatoren gaan richten, omdat een goede school leidt tot een goede baan en of je een goede school bent, bepaald de ranking. Omdat de score de studiegelden niet meerekent (weet je nog, data is niet neutraal), krijg je ook een oneerlijke vergelijking en een enorme toename van studiekosten. Het ergste is dat dit soort data-modellen, ook als ze transparant zijn, zichzelf versterken. Immers goede scholen krijgen meer aanvragen, kunnen beter selecteren, krijgen betere studenten, trekken betere professoren aan, etc…

Profilering
Zoals we al eerder zeiden, met (big) data toepassingen kun je veel beter mensen doorgronden. Je snapt ze beter, krijgt indicaties wat ze drijft en je ziet patronen. Op die manier kun je mensen beter bedienen als klant, student, patiënt of burger. Zo lang het bij suggesties tot verbetering blijft is er niets aan de hand. Maar het wordt twijfelachtiger als er conclusies verbonden worden voor een individu.

Ik heb al aangegeven dat algoritmes meningen zijn die verpakt zijn in code en dat dataverzamelingen ook bevoordeeld zijn. Dat is een probleem. Maar stel dat je het beste met mensen voor hebt, dan is er nog misschien wel een groter probleem en dat is dat de werkelijkheid  veel complexer is dan de data en dat is dus vervelend als je de voorspelling vanuit al die (big) data weer terug brengt naar het individu. Hieronder leg ik het uit met een voorbeeld van een zeehond en Ben Bernanke.

Deze afbeelding hiernaast is van een zeehond, correct?
img_bui_zeehond_2_1_8o12s699

Je hebt dat gededuceerd aan de hand van een aantal kenmerken (kaal, snorharen, droevige blik). En misschien heb je wel gelijk, maar weet je het zeker?

Heel zeker?

Weet je zeker dat het geen afbeelding is van een pelsrob? Of een zeeleeuw? Je weet dat – tenzij je een marinebioloog bent – waarschijnlijk niet zeker. En als je het wel zeker weet, weet je al helemaal niet wat het karakter van deze zeehond is. Is het een pinguïnjagende killer of gezellige loebas die met ballen op zijn neus kan jongleren.

Voor een gedeelte doet (big) data dat ook. Aan de hand van een groot aantal kenmerken kom je tot een conclusie over iets of iemand. Maar hoe geraffineerd en edelmoedig de (big) data techniek ook is, de belangrijke vraag is natuurlijk of die conclusie wel recht doet aan een veel gecompliceerdere werkelijkheid. Getrouwde mannen leven ongetwijfeld gezonder dan alleenstaande mannen. Maar als jij nou net gaat scheiden van die kettingrokende vrouw die je stress bezorgt, en elke dag frikandellen bakt, moet je dan óók meer ziektenkostenpremie gaan betalen?

Een ander voorbeeld, Ben Bernanke, die van de Federale Reserve wilde zijn hypotheek in 2014 opnieuw financieren. Dat moet mogelijk zijn zou je zeggen. Bernanke barst van het geld en hij had op dat moment een enorme boekdeal. Maar, hij had ook net een nieuw baan. Het gevolg, het algoritme wees zijn aanvraag af. Net een nieuwe baan? Risico! De algoritmes keken naar zijn kaalheid, snorharen en droevige ogen en besloten dat het een zeehond was. Niet heel ver gezocht, maar wel fout.

Feedback ontbreekt (bewust!)
Een goed datamodel kent feedback. Cathy O’Neil geeft het volgende voorbeeld. Stel je moet een nieuwe basketballer selecteren uit de collegespelers. De LA Lakers, een profteam, selecteren een pointguard niet, want die heeft niet genoeg assists. De pointguard wordt geselecteerd door de Utah Jazz en daar heeft hij heel veel assists. het gevolg zal zijn dat de LA Lakers opnieuw naar hun modellen gaan kijken, en uitzoeken wat ze nog meer moeten bekijken om beter te kunnen voorspellen. Feedback maakt het model beter.

Stel nu dat iemand solliciteert op een baan bij de McDonalds. Daarvoor moet hij een aantal persoonlijkheidsvragen invullen en op basis daarvan wordt hij niet geselecteerd. Daarna gaat hij bij de Burger King werken (die stellen andere vragen) en daar wordt hij binnen no-time franchisehouder. Het systeem van de McDonalds zal dat nooit weten, en blijft dus even dom.

De reden is eenvoudig. In het eerste voorbeeld gaat het over mensen die miljoenen waard zijn. Het tweede voorbeeld is bedoeld om een scheiding aan te brengen in de kudde. In dat laatste voorbeeld is feedback onbelangrijk en maakt het niet uit of er wat koren bij het kaf zit. Kinderen die met het badwater worden weggegooid zijn een ingecalculeerd risico. Oninteressant. Tenzij je één van die kinderen bent, natuurlijk.

Roofdieren
In bovenstaande paragrafen heb ik een aantal problemen aangestipt met betrekking tot (big) data. Meestal ging dat echter om mensen, organisaties of systemen die niets kwaads in zin hadden. (Big) data en algoritmes leiden onbedoeld tot problematische situaties. Helaas zijn er ook heel veel mensen die minder goedbedoelend zijn, en die krijgen een geweldige nieuwe toolset. Met (big) data kun je bijvoorbeeld persoonlijke advertenties aan mensen laten zien. Dat klinkt sympathiek, dan zie ik die schoenenreclames van Zalandoo niet meer, maar het betekent ook dat je mensen kunt uitzoeken die kwetsbaar en naïef zijn en die heel gericht kan targeten. Hiervan zijn enorm veel voorbeelden en het probleem is dat het allemaal niet of nauwelijks gereguleerd is.

Nieuwe ethische dilemma’s
In zekere zin is het fijn om onwetend te zijn. Immers als je niet weet welke studenten waarschijnlijk gaan uitvallen dan hoef je je er ook geen zorgen om te maken. Weet je het wel, dan krijg je hele nieuwe vragen. Ben je moreel verplicht om in te grijpen? Moet je deze data delen met de student? Of juist niet?  Als je ontdekt dat bepaalde klanten producten kopen met minder winstmarge? Ga je die klanten dan actief ontmoedigen? Of als je ontdekt dat sommige bezoekers van discotheken meer amok maken dan andere. Ga je die dan weigeren? Of als blijkt dat bepaalde mensen meer ongelukken maken. Geef je die geen polis? Mag je discrimineren op basis van een dataprofiel? Is dat goed zaken doen of juist niet? Het zijn die vraagstukken zullen meer en meer een rol gaan spelen in de toekomst.

Daarnaast moet je je afvragen welke data je wel kunt verzamelen en welke niet. Er is veel discussie over ethische vraagstukken rondom meten en onderzoek. Waar kun je wel onderzoek naar doen? Wat niet? Als je Facebook – data ontdoet van iemands personalia, kun je nog steeds met 95% zekerheid de etniciteit vaststellen en daar advertenties aan koppelen. Mag dat? We komen dan heel dicht bij het onderwerp gegevensbescherming en privacy. Een onderwerp dat we uitgebreid bespreken hier.

Samenvattend
(Big) data biedt op het eerste gezicht veel voordelen en mogelijkheden. Echter er zijn ook heel veel voorbeelden te vinden waarbij het gebruik van (big) data leidt tot ongelijkheid en discriminatie. Dit komt omdat het verzamelen van data niet neutraal is, omdat algoritmes meningen zijn verpakt in code en omdat het heel moeilijk is om data goed te begrijpen. Daarnaast is de werkelijkheid nog altijd veel complexer dan de data en leidt de beschikking over (big) data tot hele nieuwe ethische vraagstukken.

In handen van mensen met minder goede bedoeling wordt (big) data en algoritmes daadwerkelijk een Weapon of Math Destruction.

Wat is datafundamentalisme?

Ondanks alle nadelen is er toch  – de laatste jaren – in hoge mate sprake van zogenaamd  data-ism of datafundamentalisme (artikel van Harvard). Kate Crawford (Microsoft) muntte die term en het staat voor een blind vertrouwen in de kracht van data. Het idee dat correlatie altijd wijst op causaliteit (o ja, kaas en bedlakens!) en dat grote datasets en voorspellingen op basis van data objectief zijn (niet dus!).  En het komt vaak voor, meer en meer bedrijven adverteren met het feit dat ze datadriven zijn. Datadriven marketing, datadriven e-commerce, datadriven decisionmaking en ga zo maar door. Data-driven heeft nu 23,5 miljoen hits op Google en dat groeit snel. Het is blijkbaar iets om trots op te zijn.

Google maar een beetje rond. Overal zijn er bedrijven die zich er op voor staan dat ze data-driven zijn. Er zijn overal consultancy bureau’s die hun data verkopen meestal met slogans die soepel inspelen op angst. Stelt u zich de zware typische Hollywoodstem voor. In een wereld die snel verandert, waarin uw concurrenten uw inhalen. Is er maar één oplossing. Aanpassen. Data-driven zijn. Overal vind je beleidstukken waarin serieuze organisaties zeggen dat ze data centraal stellen, dat ze data-driven zullen zijn. Datafundamentalisme, dus.

Maar gezien alle bovenstaande opgesomde nadelen lijkt mij dat een organisatie misschien wat minder trots zou moeten zijn op het feit dat ze zich laat sturen door data. Datadriven decisionmaking is – eufemistisch gezegd – een besmette term. Persoonlijk, heb ik liever te maken met een organisatie die zich niet te laten leiden-en-rijden door data, zeker niet gezien alle uitdagingen die hierboven geschetst zijn. Geef mij maar een organisatie die zijn klanten centraal stelt of mensen. Geef mij maar een organisatie die human-driven is en ondersteund wordt door data. Dat klinkt minder sexy wellicht, maar wel beter.

Hoe moeten we naar de toekomst omgaan met (big) data?

Ik heb uiteraard geen allesomvattende oplossingen, maar ik heb op basis van hetgeen ik zelf geleerd heb, en heb neergeschreven in bovenstaande long read toch een aantal vuistregels proberen te formuleren, die helpen bij om goed om te gaan met alle mogelijkheden van (big) data.

  1.  Elke dataset moet sceptisch bekeken worden. Besef dat er fouten in de data zitten. Besef dat de data is verzameld door mensen met een mening. En vraag je vooral af welke data NIET verzameld is en/of geen onderdeel uitmaakt van de dataset. Wat je ook doet, beschouw data niet als iets neutraals;
  2. Data is een tool, geen beslisser. Je vraagt je hamer ook niet hoe je je huis moet bouwen. Als je ergens de term data driven decision making hoort, loop dan weg;
  3. Een data scientist is alleen van waarde als hij of zij verstand heeft van het vak waar ze data over verzamelen. Vraag je af of je genoeg verstand hebt om de data op waarde te kunnen schatten;
  4. Wantrouw zogenaamde proxies. Als je iets niet kunt meten (bijv. wat heb je geleerd op school, ben je een goede werknemer) dan wordt vaak allerlei data eromheen verzameld (proxies). Het gevaar is dat de proxies (uitval, rendement, aantal docenten met een titel, etc…) belangrijker worden dan de vraag-die-je-niet-kon-meten;
  5. Wantrouw data die conclusies verbindt aan WIE je bent. Het moet in heel gevallen gaan om WAT je doet, niet om wie je bent. Je krijgt een gevangenisstraf om wat je gedaan hebt, niet om wie je bent. Je krijgt een lening omdat je een bepaald verleden en inkomen hebt, niet om waar je woont, etc….
  6. Stel de juiste vragen. Kevin Kelly wijdt er in The Inevitable een heel hoofdstuk aan. Goede vragen worden veel belangrijker dan goede antwoorden. Dat geldt zeker in de wereld van de (big) data.

Kortom, kies voor organisaties die (big) data vooral als een tool beschouwen waar je verstandig mee om moeten gaan. Misschien dat in de toekomst blijkt dat ik het verkeerd zie, dat machine-leren en data-analyse zo goed wordt, dat het veel beter is dan wat wij mensen kunnen (want ja, we geven het toe, wij zijn ook niet perfect). Als dat zo is, dan kom ik er op terug, maar voor nu kies ik voor organisaties die (big) data met bovenstaande 6 vuistregels in gedachten beschouwen. En bij voorkeur het gewoon met kleine letters schrijven.

Lijkt me wel zo gepast.

Laatste update: 17-9-18

Deze teksten zijn gemaakt onder Creative Commons de links en afbeeldingen zijn dat niet altijd.

Wil je wat toevoegen, veranderen of anderszins opmerkingen plaatsen. Gebruik dan de reactiemogelijkheid hieronder.