Hans Schnitzler riep ons in zijn opiniestuk in de Volkskrant op om statistici niet te geloven. Want statistiek gaat over gemiddelden en middelmatigheid is stom. Of zo. Wat volgt is een representatie van statistiek die de plank nogal misslaat.
Het feit dat de toekomst ons lang niet altijd brengt wat we willen of verwachten is voor velen een verrassende teleurstelling. Hoe mensen op dit soort teleurstellingen reageren, zagen we aan het voorstel van een lokale PvdA afdeling, die opriep weermannen te laten dokken als het weer niet doet wat zij hadden voorspeld. Alsof weermannen hun voorspelling doen aan de hand van een glazen bol, in plaats van statistische modellen.
Werkelijkheid
Zo is de realiteit natuurlijk niet. Wij, als eindige wezens die het universum proberen te begrijpen, lopen eigenlijk altijd achter de feiten aan. Met onze zintuigen en meetinstrumenten kunnen we alleen wetenschappelijke uitspraken doen over wat we kunnen observeren. Maar voor elke hoeveelheid data die we inwinnen is er een praktisch oneindige verzameling data die we niet hebben. We zijn derhalve altijd gedoemd om aan de hand van een eindige en dus incomplete dataset uitspraken te doen over het universum. Met andere woorden; we moeten inductief redeneren. Van het specifieke naar het algemene. Dit is precies waarvoor statistiek is uitgevonden. Het geeft ons een wiskundige manier om data te analyseren, te interpreteren en om uitspraken te doen over de bron van deze data. In tegenstelling tot wat Schnitzler lijkt te denken, is statistiek veel meer dan alleen gemiddelden uitrekenen of ‘iets met normaalverdelingen doen’, net zoals een timmerman ook veel meer doet dan alleen een hamer gebruiken.
Misvattingen
Het is een misvatting dat statistiek ons op een of andere manier garanties zou geven voor de toekomst. Toch is Schintzler overtuigd dat statistiek “valse illusies van voorspelbaarheid” creëert. Statistiek zou zich te veel focussen op veel voorkomende gebeurtenissen in plaats van zeldzame fenomenen. Door het “wegcijferen van onwaarschijnlijkheden” zouden we details missen en dus geen rekening houden met de inherente onberekenbaarheid van het bestaan. Dit is een erg vreemde voorstelling van wat statistiek doet. Alsof er statistici zijn die zullen beweren dat ze voorspellingen kunnen doen die met volledige zekerheid uit zullen komen. Het is ook niet waar dat er nooit rekening wordt gehouden met onwaarschijnlijkheden. In sommige toepassingen gebruikt men modellen die juist extra rekening houden met zeldzame gebeurtenissen. Juist omdat de werkelijkheid vreemd en onberekenbaar is moeten we soms simplistische aannames maken. En juist omdat zeldzame gebeurtenissen per definitie bijna nooit voorkomen, neemt men die niet altijd mee bij het maken van voorspellingen. Statistiek is beschrijvend, niet prescriptief. Zo zijn normaalverdelingen slechts veelvoorkomende kansverdelingen, die we gebruiken bij het modelleren van het trekken van data. Het zijn geen wiskundige overlords die ons vertellen hoe het universum in elkaar dient te zitten. Statistiek zegt niets over de wenselijkheid van abnormaliteit.
Dit alles wil natuurlijk niet zeggen dat je data niet kunt manipuleren om je favoriete conclusies te onderbouwen, Maar dit is eerder een gevolg van het verkeerd toepassen van statistische methoden. Soms worden conclusies getrokken uit statistische onderzoeken die niet geoorloofd zijn. Soms wordt correlatie verward met een causaal verband. Soms worden modelaannames niet geverifieerd. En soms gaat men helemaal los over een incidenteel steekproefje. Zo is al vaker gezegd dat opiniepeilingen veel te veel gewichtigheid worden toegekend. Daar zit wat in, maar daar kun je ook wat tegen doen. In een blogpost van Tom Louwerse kunnen we in één oogopslag zien hoe zijn voorspellingen gemaakt worden. Het geeft ons de mogelijkheid om zijn gemaakte aannames in twijfel te trekken en om het experiment na te doen. Statistiek doet een hoop mooie dingen, mits het niet misbruikt wordt.