Stapels wetenschappelijke sjoemelaars

De fraude van sociaal psycholoog Diederik Stapel kan je onmogelijk ontgaan zijn. Uitgekotst door de wetenschappelijke wereld leverde hij vorige week zelfs zijn doctorstitel in. Terecht? Zeker. Iemand die complete onderzoeken verzint, inclusief alle resultaten van de fictieve experimenten, kan nooit meer serieus genomen worden. Minder bekend is echter dat veel meer wetenschappers het academische ethos niet zo nauw nemen.
Oké, zo bont als Stapel kom je het niet vaak tegen. Maar ik durf te stellen dat in de sociale wetenschappen vrijwel iedere academicus de regels zo nu en dan overtreedt. Ik zal enkele veel voorkomende ‘frauduleuze’ handelingen de revue laten passeren.

Vooraf even een kleine inleiding in wetenschappelijk onderzoek. Voor de leek.
Ieder onderzoek begint met een hypothese; een veronderstelling. Om het waarheidsgehalte van de hypothese te toetsen, zet men één of meerdere experimenten op, die vervolgens worden uitgevoerd. Kloppen de uitkomsten van de experimenten met hetgeen je op basis van de hypothese mag verwachten, dan wordt deze bevestigd. Zo niet, dan wordt de hypothese verworpen. Klinkt simpel, niet?
Stel, je wilt onderzoeken of Louis van Gaal populairder is bij de Ajax-supporters dan Johan Cruijff. Bij de ingang van de ArenA ondervraag je 100 mensen, van wie 55 met Van Gaal blijken te sympathiseren en 45 met Cruijff. Nu is de vraag: kan ik zeggen dat het Van Gaal kamp groter is dan het kamp van de grote verlosser, wanneer we kijken naar de gehele supporterspopulatie?
Dat hangt af van de onzekerheid die je voor lief neemt. In de sociale wetenschappen is dat doorgaans 5%. Dat wil zeggen dat een onderzoek de hypothese bevestigt wanneer de kans dat de gevonden resultaten berusten op toeval, kleiner is dan 5%. Klinkt nog steeds logisch. En dat is het ook. Tot men gaat morrelen aan de voorwaarden.

Een eerste valkuil is dat louter onderzoeken worden gepubliceerd waar iets nieuws en interessants uitkomt. Dat is verraderlijk omdat er voor elke ‘ontdekking’ misschien wel negen soortgelijke onderzoeken zijn geweest zonder effect. En dan is de ontdekking opeens een stuk minder bijzonder, en simpel te verklaren op basis van toeval. De kans dat één van de tien experimenten een effect te zien geeft, is immers ruim 40%!
Als anderen die negen ‘mislukte’ experimenten hebben uitgevoerd, dan kunnen onderzoekers er weinig aan doen als ze in deze valkuil trappen, aangezien ze waarschijnlijk niet op de hoogte waren van het bestaan van die valkuil. Het gebeurt echter ook vaak dat een wetenschapper een ‘ongewenst’ experiment een heel klein beetje aanpast, waarna het geluk opnieuw wordt beproefd. Dit herhaalt zich enkele malen tot men het gewenste resultaat (bevestiging van de hypothese) behaalt. Onderzoek geslaagd. Als het artikel vervolgens wordt gepubliceerd in een wetenschappelijk tijdschrift, dan spreekt niemand meer over alle mislukkingen. De hypothese wordt voor waar aangenomen.

Een tweede discutabel punt waaraan veel wetenschappers zich schuldig maken, is wat ik ‘verlengd onderzoek’ zal noemen. Het lijkt op bovenstaande, maar in plaats daarvan wordt niet het gehele experiment herhaald, maar worden er ‘gewoon’ nog wat extra proefpersonen getest. Dit gebeurt vooral als het effect wel in de goede richting neigt, maar nog wat te veel onzekerheid met zich meetorst. Het toevoegen van proefpersonen is echter in strijd met de voorwaarden van zuiver experimenteel onderzoek. Daarin dient namelijk vooraf vast te staan hoeveel personen worden getest, net als alle andere details van het experiment. Waarom dat belangrijk is, reikt te ver voor nu; belangrijker is te memoreren dat deze voorwaarde te pas en te onpas wordt geschonden.
In de praktijk is het voor een buitenstaander vrijwel niet te controleren welke toevoegingen er gaandeweg het experiment zijn gedaan, wat academici er vaak toe aanzet om de steekproef iets te vergroten wanneer het effect nog niet duidelijk genoeg aanwezig is. Er moet echter een belletje gaan rinkelen wanneer de steekproefgrootte tussen verschillende experimenten binnen één onderzoek flink verschilt.

Een derde sjoemelmethode hangt hier enigszins mee samen. Daarbij gaat het om het iets te grif verwerpen van proefpersonen die niet in het gewenste plaatje passen. Uitbijters worden ze genoemd. Het zijn de figuren die sterk afwijken van de meerderheid. En dan vooral wanneer die afwijking de hypothese helemaal in de war schopt. Ze zullen immers wel hebben gelanterfant. Dat kan, maar het hoeft niet. In dat geval wordt ten onrechte iemand uit de steekproef verwijderd om naar het gewenste resultaat toe te werken.
Er bestaan criteria om uitbijters eruit te gooien. Maar er wordt niet heel secuur omgesprongen met deze criteria. Vaak worden allerlei tests gedaan om te bekijken of die vervelende eend in de bijt niet kan worden verwijderd. Lage scores in sessie drie? Twee procent meer fouten? Iets andere reactietijden in de oneven trials? Ja! Hebbes. Een duidelijke reden om hem te elimineren. En opeens heeft de onderzoeker prijs. Het effect bestaat! En dat terwijl iedere proefpersoon wel wat eigenaardigheden heeft. 

Een laatste bron van misleiding is de statistiek. Niet veel academici loopt het water in de mond bij de berekening van experimentele resultaten, en weinigen verdiepen zich derhalve in de wereld van de statistische methodes. Natuurlijk, men heeft wel enig besef over goed of fout, maar de fijne kneepjes van het vak gelooft men wel.
Met als gevolg dat de statistische testen vrijwel altijd voor zoete koek worden geslikt. Niet geheel terecht, zo bleek enkele jaren geleden, toen enkele statistici de proef op de som namen door alle onderzoeken die in een bepaalde periode gepubliceerd werden in enkele toonaangevende wetenschappelijke tijdschriften aan een kritische test te onderwerpen. De resultaten waren schokkend. In de helft van de gevallen bleek de statistiek niet in orde. Recentelijk kwamen enkele Nederlandse wetenschappers tot de conclusie dat er in het leeuwendeel van het neurowetenschappelijk onderzoek verkeerde statistiek was toegepast. Natuurlijk is het de vraag in hoeveel gevallen bewust verkeerde statistiek werd toegepast. Het feit dat de fouten slechts in een kleine minderheid van de onderzoeken ‘ongunstig’ uitpakten voor de hypothese, suggereert een zekere mate van doelbewust sjoemelen. 

Er kan worden geconcludeerd dat er op grote schaal wordt gesjoemeld in de wetenschap. Een goede onderzoeker is origineel en inventief. Enige intelligentie is ook niet weg, maar staat niet op de voorgrond. Maar die inventieve onderzoeker is natuurlijk ook handig als het gaat om de resultaten in de goede richting te laten kruipen.
Ondanks de negatieve teneur van dit stuk, wil ik wel duidelijk maken dat bovengenoemde praktijken natuurlijk niet in verhouding staan tot de fraude van Diederik Stapel. Toen dat aan het licht kwam, gingen er echter meteen stemmen op dat dergelijke praktijken aan de orde van de dag zijn. Hoewel ik het tegendeel niet kan bewijzen (een vereiste voor wetenschappelijk onderzoek!), lijkt die bewering nergens op gebaseerd. Ik geloof er althans niets van.

Wat ik wel duidelijk wil maken is dat er altijd een kritische blik nodig is. Alleen in dat geval kan de wetenschap vooruitgang bewerkstelligen. Want laten we wel wezen, zonder wetenschap zouden we nog dagelijks over de toendra’s draven en geroosterde impalaballen smikkelen.