BIG DATA

DATA-DRIVEN? DAT IS TOCH MEER IETS VOOR ZELFRIJDENDE AUTO’S?

De kwestie
(Big) Data staat al jaren enorm in de belangstelling. Data is het nieuwe goud, bedrijven en overheden streven naar fact-based, data-driven decisionmaking (of zoiets..). Besluitvorming die gebaseerd is op data. Maar is dat wel een goede ontwikkeling? En is het realistisch? Is Big Data & Data-Driven het antwoord op al onze problemen? Of juist niet? Zouden we het woord data-driven niet in de ban moeten doen en vervangen door human-driven? Ik denk eigenlijk van wel.

In deze long read gaan we op zoek naar antwoorden. Dat doen we door de volgende onderwerpen te behandelen.

  1. Wat is Big Data nu eigenlijk precies? Weet iemand dat wel?
  2. Wat zijn de voordelen? Maar ook wat zijn de nadelen?
  3. Leven we (straks) in een wereld waar data fundamentalisme de nieuwe religie is?
  4. En waarom we – denk ik – af moeten van het data-driven denken!

FunKey Take Aways (1) : Na het lezen van deze long read kent u de overeenkomst tussen Ben Bernanke (ja, die van de Federale Reserve) en een zeehond.
FunKey Take Aways (2): Na het lezen van deze long read kent u de overeenkomst tussen de consumptie van kaas per hoofd van de bevolking en het aantal mensen dat sterft omdat ze vast komen te zitten in hun bedlakens. 

Wat is Big Data nu eigenlijk precies?
Ten eerste Big Data wordt meestal met hoofdletters geschreven. Waarom is niet helemaal duidelijk, maar als spelling je ding is, kun je er in ieder geval lekker over discussiëren. Verder is er geen vaststaande definitie van Big Data. Er zijn natuurlijk wel pogingen. Een manier die vaak gebruikt wordt om naar het fenomeen Big Data te kijken is langs de ‘methode van de 5 V’s‘.

–  Het gaat namelijk om veel data (Volume);
–  Nieuwe data wordt snel geproduceerd en verandert snel (Velocity);
–  Er zijn veel verschillende type data en vaak zijn ze ongestructureerd (Variety);
–  Je moet kijken naar de betrouwbaarheid (Veracity);
–  En of je waarde uit de data kan halen (Value).

Je zou ook kunnen zeggen (of misschien wel beter kunnen zeggen) dat Big Data een ontwikkeling is. Het wordt steeds eenvoudiger (en goedkoper!) om data te verzamelen, bewaren en bewerken en de statistiek (en algoritmes) worden steeds beter. De belofte van Big Data is voornamelijk die van Predictive Analytics (toekomstvoorspellingen). Met grote hoeveelheden data kun je voorspellen wat er gaat gebeuren en daar kun je actie op ondernemen. Daar zijn inspirerende voorbeelden van, bijvoorbeeld het voorspellen van misdaad of branden.

En er is goed nieuws voor de Big Data Fans want er komt steeds meer data.

Wat zijn de voordelen en wat zijn de nadelen?
De voordelen lijken evident. We verzamelen data, we analyseren het, later er de juiste software op los en dat weten we dingen. We begrijpen onze klanten beter, kunnen onze patiënten betere zorg geven, onze gewassen effectiever besproeien, criminelen effectiever bestrijden, branden  voorspellen, verspilling van voedsel kan tegengaan, studenten beter onderwijs kan bieden en ga zo maar door. En dat kan waarschijnlijk ook allemaal maar alleen door data te verzamelen en te analyseren. Meer data is dan vaak beter, zoals Kenneth Cukier in zijn Ted Talk betoogt. Hij geeft daar – tussen zijn irritante manier van ademen door – een fascinerend voorbeeld over Appeltaart. Lang is gedacht dat Appeltaart de favoriete taart van Amerika was. Immers, het werd het meest verkocht. Tot dat de supermarkten ook kleine éénpersoonstaarten gingen verkopen. Toen bleek Appeltaart helemaal niet zo populair. Het zakte naar de vijfde plaats. Appeltaart bleek vooral die taart, die iedereen wel lekker vond en die je dus kocht als er alleen maar grote taarten waren.

Meer data, meer inzicht.

Maar is dat wel zo?

Er is namelijk ook een probleem dat met een mooie naam apophenia heet. Het gaat om het zien van patronen in willekeurige data. Een voorbeeld is mensen die afbeeldingen van gezichten zien in de maan en op deze pagina zie je allerlei andere fantastische voorbeelden. Maar dit fenomeen zie je ook in Big Data. Sterker nog als je maar genoeg data hebt, dan vind je altijd wel overtuigende correlaties dat zegt echter niets over causaliteit. Even voor de niet statistici onder ons (zoals ik). Correlatie is als twee variabelen op een ordelijke manier een samenhang vertonen. Dat zegt echter niets over causaliteit, dat is namelijk de oorzaak – gevolg relatie. Op de site Spurious Correlations van Tyler Vigen, staan allerlei fantastische voorbeelden. Mijn favoriet (en ik ben daarin niet alleen) is de correlatie tussen de kaas-consumptie per hoofd van de bevolking en het aantal mensen dat sterft doordat ze verstrikt raken in de bedlakens.

Overigens moet je met causaliteit ook oppassen, want was is de oorzaak en wat is het gevolg. Bijvoorbeeld, mensen die bij de hoofdingang van het ziekenhuis staan te roken, doen dat waarschijnlijk omdat ze door het roken in het ziekenhuis zijn beland. Of weten ze misschien dat roken slecht voor je is, en gaan ze voor de zekerheid dus alvast bij de ingang van het ziekenhuis staan?

Teveel data is dus niet automatisch beter.

Als tweede kun je met Big Data toepassingen veel beter mensen doorgronden. Je snapt ze beter, wat ze drijft en je ziet patronen. Op die manier kun je mensen beter bedienen als klant, student, patiënt of burger. Dat is waarschijnlijk waar en zo lang het bij suggesties tot verbetering blijft is er niets aan de hand. Maar het wordt twijfelachtiger als er conclusies verbonden worden voor een individu.

De werkelijkheid is namelijk veel complexer dan de data en dat is dus vervelend als je de voorspelling vanuit al die Big Data weer terug brengt naar het individu. Hieronder leg ik het uit met een voorbeeld van een zeehond en Ben Bernanke.

Deze afbeelding is van een zeehond, correct?
img_bui_zeehond_2_1_8o12s699

Je hebt dat gededuceerd aan de hand van een aantal kenmerken (kaal, snorharen, droevige blik). En misschien heb je wel gelijk, maar weet je het zeker?

Heel zeker?

Weet je zeker dat het geen afbeelding is van een pelsrob? Of een zeeleeuw? Je weet dat – tenzij je een marinebioloog bent – waarschijnlijk niet zeker. En als je het wel zeker weet, weet je al helemaal niet wat het karakter van deze zeehond is. Is het een pinguïnjagende killer of gezellige loebas die met ballen op zijn neus kan jongleren.

Voor een gedeelte doet Big Data dat ook. Aan de hand van een groot aantal kenmerken kom je tot een conclusie over iets of iemand. Maar hoe geraffineerd de Big Data techniek ook is, de belangrijke vraag is natuurlijk of die conclusie wel recht doet aan een veel gecompliceerdere werkelijkheid. Getrouwde mannen leven ongetwijfeld gezonder dan alleenstaande mannen. Maar als jij nou net gaat scheiden van die kettingrokende vrouw die je stress bezorgt, moet je dan óók meer ziektenkostenpremie gaan betalen?

Een ander voorbeeld, Ben Bernanke, die van de Federale Reserve wilde zijn hypotheek in 2014 opnieuw financieren. Dat moet mogelijk zijn zou je zeggen. Bernanke barst van het geld en hij had op dat moment een enorme boekdeal. Maar, hij had ook net een nieuw baan. Het gevolg, het algoritme wees zijn aanvraag af. Net een nieuwe baan? Risico! De algoritmes keken naar zijn kaalheid, snorharen en droevige ogen en besloten dat het een zeehond was. Niet heel ver gezocht, maar wel fout.

Dan is er nog een probleem. Data is namelijk geen natuurverschijnsel. Je moet data verzamelen en daarvoor moet je iets doen. Maar vanaf dat moment is data niet meer neutraal. In zijn Godwin – lezing stelt Maxim Februar op een heldere manier vragen bij de neutraliteit van data en daarmee het in zijn ogen misplaatste data – optimisme.

Data heeft dus misschien de schijn van neutraliteit, maar data is verre van neutraal. Het is misschien een openbaring, maar data wordt toch echt verzameld door mensen. En mensen zijn…. tja mensen. De dataverzameling is dus bevoordeeld. Welke data verzamel je? Hoe verzamel je de data? Naar welke data kijk je? Naar welke niet? Het zijn allemaal (morele) keuzes die de uitkomst bepalen.

Als we kijken naar de gebruikers van Farmville, dan zien we dat er heel veel uit Beverly Hills komen. Of is 90210 gewoon de bekendste postcode in Amerika?

Data is net zo neutraal als de vragen die je stelt in een vragenlijst. Zoals Kate Crawford stelt, data is iets wat we creëren, maar ook bij elkaar fantaseren. Maar er zijn meer problemen. Bijvoorbeeld rondom Hurricane Sandy werden 20 miljoen tweets gestuurd. Die kun je analyseren, maar zonder context trek je de verkeerde conclusies. Immers, de hardst getroffen gebieden (Breezy Point, Coney Island) twitterden weinig simpelweg omdat ze te druk waren met de storm, minder geïnteresseerd zijn in twitter of geen batterij of verbinding (meer) hadden. In Manhattan daarentegen werd volop getwitterd. De data wees er op dat de ramp zich vooral voltrok in Manhattan. De werkelijkheid was heel anders.

Nog een ander beroemd voorbeeld is Google Flu Trends (GFT). Op basis van zoekopdrachten op griep-gerelateerde symptomen kon Google al in 2008 griepepidemies volgen en voorspellen. Het werd het uithangbord van Big Data, maar later, toen het meer media-aandacht kreeg en de data toenam, zat Google er 140% naast en werd het het uithangbord van problemen met Big Data. Lees de analyse hier.

Daarnaast hebben experimenten aangetoond dat je met dezelfde data-visualisatie software elkaar compleet tegensprekende visualisaties kan maken van dezelde dataset (in opdracht van het Rathenau – instituut, paragraaf 5.1). Kortom, de data is niet neutraal, de analyse ook niet, noch eventuele visualisaties.

Een volgend vraagstuk gaat om de ethiek. Er is veel discussie over ethische vraagstukken rondom meten en onderzoek. Welke data kun je wel verzamelen, welke niet? Waar kun je wel onderzoek naar doen? Wat niet? Als je Facebook – data ontdoet van iemands personalia, kun je nog steeds met 95% zekerheid de etniciteit vaststellen en daar advertenties aan koppelen. Mag dat?Maar het wordt nog interessanter als je na gaat denken over wat je gaat doen met de correlaties of causale verbanden die je vindt in de Big Data? In bepaalde gevallen is het eenvoudig. Als je ontdekt dat patiënten sneller opknappen als ze vaker/minder vaak bezocht worden door een arts dan pas je dat aan. Als je ontdekt dat er minder criminaliteit is als je in een ander patroon patrouilleert, dan doe je dat. Maar wat als je ontdekt dat bepaalde klanten producten kopen met minder winstmarge? Ga je die klanten dan actief ontmoedigen? Of als je ontdekt dat sommige bezoekers van discotheken meer amok maken dan andere. Ga je die dan weigeren? Of als blijkt dat bepaalde mensen meer ongelukken maken. Geen polis? Mag je wel discrimineren op basis van je dataprofiel. Juist die vraagstukken zullen meer en meer een rol gaan spelen in de toekomst.

En tenslotte, natuurlijk privacy, een onderwerp dat we uitgebreid bespreken hier.

Er zijn dus – in grote lijnen – vijf belangrijke vragen. Big Data is lang niet altijd een representatie van de werkelijkheid voor een individueel persoon, de gevonden correlaties in de data hoeven lang niet altijd correct te zijn en de data zelf is ook niet altijd betrouwbaar en zeker niet neutraal. Daarnaast zijn er vele vragen over ethiek en privacy.

Over datafundamentalisme
Ondanks bovenstaande bezwaren is er in hoge mate sprake van data-ism of datafundamentalisme. Kate Crawford (Microsoft) muntte die term en het staat voor een blind vertrouwen in de kracht van data. Het idee dat correlatie altijd wijst op causaliteit (o ja, kaas en bedlakens!) en dat grote datasets en voorspellingen op basis van data objectief zijn (niet dus!).  En het komt vaak voor, meer en meer bedrijven adverteren met het feit dat ze datadriven zijn. Datadriven marketing, datadriven e-commerce, datadriven decisionmaking en ga zo maar door. Data-driven heeft nu 14,7 miljoen hits op Google en dat groeit snel. Het is blijkbaar iets om trots op te zijn.

Google maar een beetje rond. Overal zijn er bedrijven die zich er op voor staan dat ze data-driven zijn. Er zijn overal consultancy bureau’s die hun data verkopen meestal met slogans die soepel inspelen op angst. Stelt u zich de zware typische Hollywoodstem voor. In een wereld die snel verandert, waarin uw concurrenten uw inhalen. Is er maar één oplossing. Aanpassen. Data-driven zijn. Overal vind je beleidstukken waarin serieuze organisaties zeggen dat ze data centraal stellen, dat ze data-driven zullen zijn. Datafundamentalisme, dus.

Het einde van data-driven
Persoonlijk, maar het kan aan mij liggen, heb ik liever te maken met een organisatie die zich niet te laten leiden-en-rijden door data, zeker niet gezien alle uitdagingen die hierboven geschetst zijn. Geef mij maar een organisatie die zijn klanten centraal stelt of mensen. Geef mij maar een organisatie die human-driven is en ondersteund wordt door data. Dat klinkt minder sexy wellicht, maar wel beter.

Geef mij maar een organisatie die de onderstaande 5 vuistregels begrijpt:

  1.  Elke dataset moet sceptisch bekeken worden. Data heeft fouten. Data is verzameld door mensen en dus niet neutraal;
  2. Data is een tool, geen beslisser. Je vraagt je hamer ook niet hoe je je huis moet bouwen;
  3. Gezond verstand moet je wantrouwen, maar niet opzij schuiven. Jij moet denken, niet de data;
  4. Data scientists moeten dus breed opgeleid zijn en thuis zijn in het vak waarvoor ze data verzamelen. Ze moeten de data op waarde kunnen schatten;
  5. Stel de juiste vragen. Kevin Kelly wijdt er in The Inevitable een heel hoofdstuk aan. Goede vragen worden veel belangrijker dan goede antwoorden. Dat geldt zeker in de wereld van de (Big) Data.

Kortom, organisaties die Big Data vooral als een tool beschouwen waar je verstandig mee om moeten gaan. Misschien dat in de toekomst blijkt dat ik het verkeerd zie, dat machine-leren en data-analyse zo goed wordt, dat het veel beter is dan wat wij mensen kunnen (want ja, we geven het toe, wij zijn ook niet perfect). Als dat zo is, dan kom ik er op terug, maar voor nu kies ik voor organisaties die Big Data met bovenstaande 5 vuistregels in gedachten beschouwen. En bij voorkeur het gewoon met kleine letters schrijven.

Lijkt me we zo gepast.
cc

Laatste update: 25 – mei – 2016

Deze teksten zijn gemaakt onder Creative Commons de links en afbeeldingen zijn dat niet altijd.

Wil je wat toevoegen, veranderen of anderszins opmerkingen plaatsen. Gebruik dan de reactiemogelijkheid hieronder.

 

 

 

Geef een reactie