De gouden standaard onder druk

Sinds de uitvinding in de jaren ’20 van de vorige eeuw heeft de p-waarde een merkwaardige carrière gemaakt. Merkwaardig en twijfelachtig. Zou aan de hegemonie van de p-waarde nu eindelijk een einde komen? Ik neem jullie mee in een stukje van de discussie.

In ieder statistiekboek kun je het terugvinden (ook in het mijne), iedere basiscursus statistiek gaat eropin, iedere statisticus kan het dromen: bij een p-waarde van < 0,05 heet een effect, een correlatie of een verschil significant. Onderzoekers zien dit als een resultaat dat niet aan het toeval toegeschreven kan worden. Maar wist je dat Fisher (1925) bij de introductie van deze p-waarde helemaal niet voor ogen had om het zo’n centrale rol te geven? Toen hij dit concept introduceerde wilde hij met dit getal enkel aangeven dat er kennelijk voldoende bewijs in de data was om een fenomeen (een effect, verschil of correlatie) nader te bestuderen. Niet meer en niet minder.

De gouden standaard bij statistische toetsen is, dat gevonden p-waarden van < 0,05 worden geïnterpreteerd als ‘niet toevallig’. Bij een p-waarde < 0,05 constateren we dat de kans dat H₀ waar is voor deze data, kleiner is geworden dan 5%. Dat noemen we dan ‘verwaarloosbaar klein’ en we verwerpen dan H₀ ten gunste van H₁, de alternatieve hypothese. Maar ja, kwantitatieve onderzoekers en statistici weten allemaal hoe het met die aanname is gelopen.

In de afgelopen decennia is het belang van de p-waarde steeds meer overschat. Loopbanen aan universiteiten (en budgetten) werden afhankelijk van aantallen publicaties met mooie, significante resultaten. De kwaliteit leek er steeds minder toe te doen, en onderzoekers grepen naar Draconische maatregelen om toch maar zoveel mogelijk publicaties bijeen te harken. Zo ontstond een tendens van p-hacking. Een paar voorbeelden: - alleen resultaten publiceren die significant zijn (en de niet-significante resultaten weglaten); - zodra een p-waarde van < 0,05 wordt gevonden stoppen met analyseren (en data verzamelen); - een steekproef groter maken totdat een p-waarde van < 0,05 ontstaat. Daarbij werd het oorspronkelijke doel waarvoor Fisher de p-waarde had geïntroduceerd, volledig genegeerd.

Tja, dat tij moest toch worden gekeerd. En dat gebeurt nu op grote schaal! Ten eerste streeft de beweging Open Science naar meer reflectie van de academische gemeenschap. Zo willen ze dat publicaties voor iedereen toegankelijk worden; dat een onderzoeker eerst een onderzoeksvoorstel moet dienen voor een publicatie op termijn, en niet slechts onderzoeksresultaten. Verder vindt een steeds grotere roep plaats om kwaliteit van (kwantitatieve) resultaten. Een mooie impuls daartoe is het beschikbaar stellen van data voor heranalyse, zodat een grotere betrouwbaarheid van resultaten ontstaat.

Daarnaast is ook de discussie over de gouden standaard, de grens van p < 0,05, opgelaaid. Een groep wetenschappers pleit voor een nieuwe grens van p < 0,005. Sommigen zijn zelfs voor algehele afschaffing van de p-waarde (Briggs, 2017). Na talloze publicaties waar hele grote (echt hele grote) steekproeven gebruikt zijn, contextloze minieme verschillen zijn gepresenteerd en waar alle resultaten ongeveer rondom de 5%-grens blijven hangen zonder noemenswaardig kwaliteitskeurmerk of verklaring, is dit pleidooi te begrijpen. Bovendien is er geen scherpe grens waarboven een verschil of effect betekenisvol wordt. Deze tendens zorgt voor vernieuwing, niet alleen in de statistiek, maar ook in de methoden van onderzoek. Zo ontstaan er interessante mixed method ontwerpen (een mix van kwalitatief en kwantitatief onderzoek), nieuwe kwalitatieve tools die diepgang bieden van alle cijfers (dus niet alleen van grote databestanden). Wetenschappers pleiten steeds vaker voor getrianguleerde opzetten.

Ook voor mij geeft deze discussie nieuwe inzichten. Ik houd mijn studenten altijd al voor dat statistiek een instrument is om gegevens te presenteren, geen doel op zich. Zo gaan ze de handige handvatten van statistiek gebruiken en kijken ze verder dan kale en oppervlakkige cijfers. Het is echter hoog tijd om ook de interpretatie van de p-waarde te nuanceren en in perspectief te plaatsen. Nog meer aandacht te vragen voor de kwaliteit van de data en de analyses; meer kijk te bieden op de rol die de resultaten in de samenleving spelen in plaats van de focus op een enkele grenswaarde. Ja, statistiek is een mooi vak, en dat is het. Terug naar zoals Fisher het heeft bedoeld.

Bronnen:

Briggs, W.M. (2017). The Substitute for p-Values. Journal of the American Statistical Association, 112 (519), 897-898. DOI: 10.1080/01621459.2017.1311264.

Bruin, E. de (2016, 18 juni). De val van het P-getal. NRCWeekend.
Fisher, R. (1925). Statistical Methods for Research Workers. Edinburgh: Oliver and Boyd.

Goodman, S. N. (2016). Aligning statistical and scientific reasoning. Misunderstanding and misuse of statistical significance impede science. Science, 352 (6290), 1180-1181. DOI: 10.1126/science.aaf5406.