En er zijn inderdaad spectaculaire voorbeelden te noemen. Verzekeraars analyseren rijgedrag online. Het aantal griepgevallen kan voorspeld worden door de analyse van daarmee verband houdende zoektermen in Google. En Amazon gebruikt je aankoopgegevens om steeds betere suggesties te doen voor andere interessante boeken.
Men maakt hiervoor gebruik van algoritmen die verbanden proberen te leggen zonder dat die verbanden ook nadrukkelijk begrepen hoeven te worden. Dat scheelt tijd. Als slimme algoritmen in een grote dataset een duidelijke positieve correlatie opmerken tussen het houden van parkieten en een verhoogde kans op overlijden, kunnen we de bevolking daar maar beter meteen voor waarschuwen, toch?
Big Data is een geweldig instrument als het gebruikt wordt in combinatie met domeinspecifieke kennis.
Nou, nee. De correlatie tussen het houden van parkieten en een verhoogde kans op overlijden verdwijnt als sneeuw voor de zon wanneer je leeftijd als verklarende variabele meeneemt. Wie parkieten houdt is, gemiddeld, oud, en wie oud is heeft een grotere kans op overlijden. De gevonden sterke correlatie (die ooit voor kortstondige beroering in de Nederlandse kranten zorgde) is er dus wel degelijk, maar is betekenisloos. Als leeftijd meegenomen wordt in de analyse van de data hoeft dat geen problemen op te leveren. Big Data is een geweldig instrument als het gebruikt wordt in combinatie met domeinspecifieke kennis. Maar het punt is dat je schijncorrelatie pas opmerkt als je verbanden begrijpt, en niet alleen verbanden opspoort.
Na grote successen in de eerste jaren, falen de Google griepvoorspellingen inmiddels dan ook volledig. En omdat ik vorige maand een reisgids voor Praag aangeschaft heb via Amazon, suggereert hun “slimme” algoritme dat ik vandaag een oudere druk van exact dezelfde reisgids zou willen kopen! Dan ga ik liever naar de boekwinkel om een boek te kopen dat niets met mijn vorige aankopen te maken heeft. Over parkieten, bijvoorbeeld.
Deze blog is op persoonlijke titel geschreven.