De publicatiefabriek

maandag 21 oktober 2013

Afscheid van de slodderwetenschap?

Marino van Zelst

Chris Hartgerink

Fraude in de wetenschap blijft de gemoederen bezig houden. Marino van Zelst en Chris Hartgerink schreven op 12 oktober in NRC Handelsblad dat fraude voortkomt uit zelf opgelegde publicatiedruk en uit de geslotenheid van het onderzoeksproces.

David Goodstein voegde daar in On fact and fraud (2010) nog aan toe dat fraudeurs bijna altijd werken in een domein waar men niet verwacht dat onderzoeken exact reproduceerbaar zijn.

Fraude, hoe afkeurenswaardig ook, is niet het echte probleem, schreef ik in een ingezonden brief (NRC Handelsblad 17 oktober). Data fabriceren of vervalsen doen slechts weinigen, maar goochelen met statistische analyses is wijdverbreid. Ik noemde dat, in navolging van de commissie-Levelt, 'slodderwetenschap', en dus schreef de koppenmaker van NRC Handelsblad boven mijn brief: 'Sloddervossen zijn erger dan fraudeurs'. Maar dat stond niet in mijn brief.

Bij nader inzien wekt de term 'slodderwetenschap' (een vrije vertaling van sloppy science) een verkeerde indruk, alsof het om slordigheidjes zou gaan. Het gaat echter om mooier maken, om het fotoshoppen van je onderzoeksbevindingen, om zo je kans op publicatie te vergroten. Op zich is dit natuurlijk niet zo vreemd, maar de vraag is wel: hoe ver mag je daarin gaan? Mijn eigen faculteit hield daarover vorige week nog een discussiebijeenkomst, onder de titel 'Sloppy science - Use and misuse of data in the behavioural and social sciences'.

Denk nu niet dat dit probleem alleen in Nederland of alleen in de sociale wetenschappen voorkomt. In The Economist van vorige week wordt een indringend overzicht gegeven van zowel 'questionable research practices' als stomme fouten als gevolg van onvoldoende kennis van de statistiek. Het blijkt dat zelfs in de subatomaire fysica bias kan optreden wanneer de onderzoekers weten wat er uit moet komen!

Harry Collins

Is replicatie dan het geheime wapen om de zaak weer op orde te krijgen? In theorie misschien wel, maar het artikel in The Economist maakt duidelijk dat er op die weg nog heel wat voetangels en klemmen zijn, waaronder de door Harry Collins gemunte term 'experimenter's regress: een replicatie is pas echt goed als deze hetzelfde resultaat oplevert als het origineel...

PS In Trouw (11 oktober) stond een opiniestuk van de artsen Yvo Smulders en Joeri Tijdink met als titel 'Mild bedrog' groter probleem dan fraude. Zij belichten vooral de onbewuste beïnvloeding van onderzoekers als gevolg van perverse factoren (financiële belangen, publicatiedruk).

donderdag 17 oktober 2013

De lessen van Stapel

Lesgeven over fraude en integriteit in de wetenschap was aan de Universiteit van Tilburg tot twee jaar geleden toevertrouwd aan ervaringsdeskundige Diederik Stapel. Daar kunnen we in ieder geval van leren dat er voor fraudebestrijding meer nodig is dan mooie woorden en gedragscodes. Onder andere daarover ging het op dinsdag 15 oktober in Nijmegen, in een discussie met sociaalpsycholoog en decaan sociale wetenschappen Daniel Wigboldus.

Wigboldus verdedigde zijn vak, en dat siert hem. Het rapport van de Commissie Levelt had hem wel aan het denken gezet, maar Stapel was zeker niet typerend voor de sociale psychologie, al was het maar door zijn neiging de gelederen van zijn leerstoelgroep sterk gesloten te houden. Die sekte-achtige benadering zagen we trouwens ook in de fraudezaak van de cultureel-antropoloog Bax.

Met mijn stelling 'Het huidige systeem van kwaliteitsbeoordeling bevordert calculerend gedrag en benadeelt de wetenschap' leek Wigboldus het wel eens te zijn. Als decaan wil hij zich sterk maken voor een meer genuanceerde vorm van kwaliteitsbeoordeling dan het tellen van publicaties of het registreren van de H-index van onderzoekers.

Misschien is op dit punt het tij sowieso al aan het keren, zoals vanuit het publiek door de cultureel antropoloog Henk Driessen betoogd werd.

Wigboldus kan zich in ieder geval beroepen op het rapport van de KNAW-commissie-Bensing over kwaliteitsindicatoren in de sociale wetenschapppen. En ook Bert van der Zwaan, rector magnificus van de Universiteit Utrecht, wil af van de 'volumetrie' in de gangbare wetenschapsideologie, maar hij vergelijkt het in een interview met DUB met het van koers laten veranderen van een olietanker: het gaat heel langzaam.

De discussie in Nijmegen was overigens georganiseerd door het Centrum voor Ethiek en stond onder leiding van Evert van der Zweerde. Mijn powerpoint met de stellingen vind je hier.

vrijdag 11 oktober 2013

Grillige experimenten

Met regelmaat ontvang ik reacties van lezers op De publicatiefabriek. Zo schreef een oud-collega me deze week: 'Ik heb gisteren jouw prachtboek uitgelezen en ben vol lof. Het leest als een trein, er valt veel te lachen, het is heel beargumenteerd geschreven, de lezer steekt er een hele hoop van op, en de studie is ook nog een inleiding in de filosofie van de sociale wetenschappen met aandacht voor de heilige drie-eenheid: Methode, Epistemologie en Ontologie. Dit aan de hand van de casus: de meesterfraude van Stapel, of om Reve te parafraseren: ‘dit verzint alleen de werkelijkheid.’'

Marco de Baar

Ook buiten de sociale wetenschappen trekt het boek de aandacht. In het oktobernummer van De Psycholoog schreef Marco de Baar, hoogleraar natuurkunde aan de Technische Universiteit Eindhoven: '[Abma] slaagt er prima in om te beschrijven hoe, in het kielzog van schijnbaar objectieve criteria, slodderwetenschap kan ontstaan'. Zijn conclusie: 'Dit boek is daarom zeker ook relevant voor wetenschappers uit andere disciplines'.

De Baar maakt interessante opmerkingen over de betekenis van replicatie-onderzoek: 'Als in experimenten soms sterke effecten worden gevonden en soms niet, dan zegt dat juist iets heel wezenlijks over het systeem dat onderzocht wordt. Replicatie-onderzoek zou juist inzicht kunnen geven in de grilligheid van het systeem [...]'. Hij geeft vervolgens een voorbeeld uit de chaostheorie (zie filmpje hier) waaruit blijkt dat afhankelijk van het startpunt van de slinger een sterk effect optreedt of juist helemaal niet. De theorie is niet falsifieerbaar en het experiment niet exact te repliceren. Ergo: 'Methoden en technieken die optimaal geschikt zijn voor de bestudering van de ene klasse van systemen zijn niet overal probleemloos inzetbaar.'

Misschien moet je hieruit ook maar direct concluderen dat het experiment niet zo'n geschikte methode is om menselijk gedrag te onderzoeken. Anders dan natuurkundige objecten hebben mensen een perceptie en interpretatie van de (experimentele) situatie, en die beïnvloedt onvermijdelijk hun gedrag. Pogingen om dat alles onder controle te krijgen leveren soms een interessant effect op, dat dan vervolgens in replicatie-onderzoek weer sneuvelt. Het is buitengewoon ingewikkeld om uit te zoeken waar dat aan ligt: de hoeveelheid begincondities en 'storende factoren' is in de menswetenschappen nog veel groter dan in de natuurwetenschappen.

Zelfs als je het experiment wel zinvol vindt voor de menswetenschappen, is het de vraag of je moet aanbevelen dat ieder experimenteel onderzoek hier gevolgd wordt door een reeks replicatiestudies. Of de oorspronkelijke resultaten nu bevestigd worden of niet, telkens zal toch de knagende vraag zijn: heb ik exact hetzelfde onderzocht als mijn voorganger? Buiten dat is er de vraag van relevantie: moet je niet beperken tot onderzoek (en replicatie) waarbij het hele veld het er over eens is dat er een theoretisch relevante kwestie op het spel staat? Gezien de hoeveelheid theorieën (en theorettes) in de psychologie is die consensus nog ver weg. Dan staat de aanbeveling om standaard te repliceren gelijk aan het gooien van een bommetje in een confettifabriek, met als gevolg een explosie aan losse snippers waar niemand meer wijs uit kan worden. In de sociale psychologie vergde het alleen al twee dikke delen Handbook of Theories of Social Psychology (in het jaar van Stapels démasqué gepubliceerd onder redactie van Van Lange, Kruglanski en Higgins) om op theoretisch vlak enig lijn in de zaak te brengen.

Een kritische discussie over de mogelijke verbeteringen in dit veld, zoals De Baar aanbeveelt, is zeker op zijn plaats. Het installeren van een automatische replicatiepiloot en methodologische fijnslijperij, wat nu de dominante trend lijkt te worden, lijken me hierbij geen zinvolle acties, het vergroten van het theoretische gewicht van (sociaal)psychologisch onderzoek wel.

Klik hier voor de recensie van Marco de Baar in De Psycholoog.

vrijdag 27 september 2013

'Het was mijn broer'

Weet u nog, Joseph Luns? Die stond als student van 1933 tot 1936 ingeschreven als lid van de NSB. Zelf wist hij dat niet, zijn broer had hem buiten zijn medeweten ingeschreven, zo verklaarde hij. Desgevraagd bevestigde zijn broer dat – maar het bleek niet waar. Luns had hem onder druk gezet, uit vrees te moeten aftreden als secretaris-generaal van de NAVO.

Uit het rapport over het wetenschappelijk wangedrag van de cultureel antropoloog Mart Bax komt een soortgelijke manoeuvre naar voren: 57 van zijn ruim 150 publicaties zijn ‘niet gerealiseerd’, maar wel in zijn officiële publicatielijst opgenomen. Hoe kwam dat? Bax gaf jaarlijks de titels op van artikelen, papers en andere probeersels waar hij mee bezig was. Soms leidde dat niet tot publicatie omdat hij ziek werd of omdat er een oorlog uitbrak (antropologen werken soms in roerige regio’s). Anderen op de afdeling waren dan zo voorbarig of onzorgvuldig om die geplande publicaties als ‘gerealiseerd’ in de officiële lijsten te zetten. Zelf had hij niets in de gaten: zijn fysieke handicap verhinderde hem van een beeldscherm te lezen, hij had nooit geleerd met geautomatiseerde systemen te werken en hij had een weerzin tegen bureaucratische procedures. Het belette hem overigens niet om zijn handtekening onder de opgaven te zetten.

Bax, geboren in 1937, kwam in 1965 in dienst van de VU, promoveerde in 1973 aan de Universiteit van Amsterdam, en werd aan de VU in 1986 UHD en in 1988 bijzonder hoogleraar ‘politieke antropologie in het bijzonder religieuze machtsvorming en processen van staatsformatie’. Deze carrière berustte voor een belangrijk deel op zijn buitengewoon hoge wetenschappelijke productie en zijn actieve betrokkenheid in een internationaal wetenschappelijk netwerk. Een derde van die publicaties bestond dus simpelweg niet. Van de wel gematerialiseerde publicaties (ruim 90) bleek een belangrijk deel te bestaan uit ‘recycling’ van eerdere publicaties, een lucratieve vorm van zelfplagiaat. Zelf zag Bax daar weinig problemen in: het was een gebruikelijke strategie en ‘een manier om meer mensen zijn teksten te laten lezen’ (p.35).

Bax' meest prestigieuze publicatie (1995), vol onjuistheden en slordigheden.

Uit het rapport over Bax stijgt, behalve een walm van misleiding en slordigheid, het beeld op van een hoogleraar die zichzelf een god waant: hij reageerde niet op kritieken op zijn werk en hij maakte van zijn afdeling een sekte ‘waarbinnen het voor insiders goed toeven was maar waar invloeden van buiten systematisch werden geweerd. […] Promovendi moesten hun plek vinden in een sterk afgesloten omgeving, waarin woord van Bax wet was’ (p. 43-44). Het is een bekend patroon, net zoals de neiging om met spectaculaire publicaties de media te halen (religieuze vernederingsrituelen in Neerdonk, het bloedbad dat zou hebben plaatsgevonden in Medjugorje). Uiteraard is het archief van Bax opgeruimd, en zijn de lokale informanten overleden, zodat de commissie eigenlijk niets aan oorspronkelijke bronnen kon controleren.

Dit alles stuit tegen de borst, maar wat mij nog het meest trof was de manier waarop Bax allerlei slordigheden en omissies in zijn publicaties goedpraatte. Hij had gekozen voor ‘het hanteren van een schrijfstijl, mede geïnspireerd op Norbert Elias en Johan Goudsblom, waarin methodologische nuanceringen werden vermeden om de tekst leesbaar te houden’ (p.16). Bax was met zijn ‘theorie van religieuze regimes’ een fanatiek aanhanger van Elias, maar wat hij hem hier in de schoenen schuift is buitengewoon kwaadaardig. En de bescheiden, erudiete en nauwkeurige Goudsblom tot 'partner in crime' te benoemen getuigt van een niets ontziende drang tot zelfrechtvaardiging.

dinsdag 3 september 2013

Rantsoen

Bind het aantal publicaties per onderzoeker aan een maximum. Dat is een van de suggesties in het slothoofdstuk van De publicatiefabriek. Dit is geen nieuwe gedachte. Anita Jansen, hoogleraar in de psychologie aan de Universiteit Maastricht, opperde het al in 1993, en de filosoof en socioloog Tannelie Blom maakte er in 1997 een stelling bij zijn proefschrift van. En onlangs kwam ik het weer tegen in de rubriek 'Ware wetenschap' van De Volkskrant (27 augustus 2013).

De communicatiewetenschapper Daniël Janssen bood de lezer een kijkje op de werkvloer. Bij het beoordelingsgesprek vinkte zijn leidinggevende af hoe vaak Janssen het afgelopen jaar had gepubliceerd in hoog aangeschreven tijdschriften. 'We spraken wel over onderwijs en andere activiteiten, maar uiteindelijk wordt een wetenschapper op zijn H-index afgerekend.' Zo'n twee keer per jaar moet Janssen in een A- of een B-tijdschrift staan; daar ligt de lat. Over de inhoud van zijn werk ging het bij dat beoordelingsgesprek niet, als we op het krantenbericht mogen afgaan.

Janssen wordt er niet vrolijk van, maar moet er wel aan meedoen. Liever zou hij zien dat wetenschappers op rantsoen geplaatst worden: 'Bepaal dat ze maximaal twee keer per jaar een artikel mogen insturen naar een tijdschrift. Dan ga je beter nadenken over de vraag welk onderzoek het meest waardevol is. Kwaliteit boven kwantiteit.' Kortom, grenzen aan het productiewerk. Ook hier gaat het trouwens niet over de inhoud. Stel dat het ontwikkelen van het theoretisch kader (inclusief literatuurstudie) meer tijd kost, of het empirisch onderzoek in eerste aanleg weinig interessants oplevert. Dat is volstrekt normaal, maar in de huidige onderzoekscultuur wordt dat niet geaccepteerd: publiceren zul je! Dit is het soort imperatieven dat uiterst saaie artikelen oplevert die niemand wil lezen, de publicatiecholesterol die de aderen van de wetenschap doet dichtslibben, om over erger maar te zwijgen. We weten inmiddels waar sommige wetenschappers toe in staat zijn als ze in paniek raken.

Dan toch maar even over de inhoud. Volgens de Volkskrant ging het om experimenten over het effect van excuses door bedrijven (bijvoorbeeld bij wanprestatie) op de boosheid van klanten. Wat denkt u dat de wetmatigheid zal zijn? Inderdaad, hoe bozer klanten zijn over een schandaal, des te meer zijn die excuses nodig om hun woede te temperen. Dat is, om het zacht te zeggen, bepaald niet contra-intuïtief (al zal het eigenlijke onderzoek vast ingewikkelder zijn). Janssen wil met dit resultaat terechtkomen in het A-tijdschrift in zijn branche, Public Relations Review, waarin wel vaker dit soort onderzoeken over excuses worden gepubliceerd. Mij lijkt dat het bij dit type onderzoek inderdaad raadzaam is het aantal artikelen beperkt te houden.

zaterdag 31 augustus 2013

Stapel zet de wereld op zijn kop

In een lang interview (Trouw, 24 augustus) mocht Diederik Stapel ongeremd zijn hart uitstorten. Vooral de commissie-Levelt moest het ontgelden. Die zou ‘karaktermoord’ op hem hebben gepleegd en bovendien zijn vakgebied, de sociale psychologie, ‘geweld’ hebben aangedaan. Ernstige beschuldigingen, maar kloppen ze ook?

De commissie-Levelt had allereerst de vraag te beantwoorden welke publicaties van Stapel op fraude berustten en hoe die fraude eruit zag. Dat vergde een intensieve methodische en statistische reconstructie van de betreffende onderzoeken. De uitkomst was ondubbelzinnig: 55 van Stapels publicaties berusten onbetwistbaar op fraude en bij nog eens 10 is dit vrijwel zeker. Ook is komen vast te staan dat hij die fraude alleen pleegde: zijn coauteurs wisten van niets. Stapel had zijn collega’s en AIO’s dus bedrogen, net als de financiers van de onderzoeksprojecten, de redacties van tijdschriften en de promotiecommissies die de resultaten van de – frauduleuze – onderzoeken te beoordelen hadden.

Hoe heeft Stapel dit bedrog zo lang kunnen volhouden? Dit had allereerst te maken met zijn werkwijze, zo bleek uit de bijna honderd interviews die de commissie had met betrokkenen. In de omgang met collega’s en promovendi toonde hij grote betrokkenheid, waardoor hij hun vertrouwen won. Op zich is daar niets mis mee, maar het krijgt een andere lading wanneer dergelijk gedrag gepaard gaat met regelrecht bedrog. Stapel heeft het vertrouwen van zijn collega’s op massale schaal geschonden. Wanneer hij deze constatering ‘karaktermoord’ noemt zet hij de zaak op zijn kop (de commissie liet zich over zijn karakter overigens in het geheel niet uit).

Stapels fraude werd ook vergemakkelijkt door de onderzoekscultuur in zijn branche: de experimentele sociale psychologie. De commissie constateerde daar een ‘falen van de wetenschappelijke kritiek’. Allerlei merkwaardigheden in de uitvoering van het onderzoek en de analyses, alsook in de resultaten werden door collega’s en reviewers over het hoofd gezien. Ook bleek het heel gewoon te zijn om resultaten te verfraaien. Voor een deel werd dit zelfs aangemoedigd door tijdschriftredacties! In mijn boek De publicatiefabriek laat ik zien hoe de scoringsdrang bij zowel onderzoekers als tijdschriften het kritisch beoordelen van wetenschappelijk werk belemmert.

Volgens sommige sociaalpsychologen deed de commissie-Levelt met deze conclusies een vileine aanval op hun vakgebied. Andere sociaalpsychologen erkenden direct dat het genoemde probleem bestond en dat er iets aan gedaan moest worden. Stapel doet het nu voorkomen alsof de beschadiging van de sociale psychologie niet door hemzelf, maar door de commissie-Levelt was veroorzaakt. Opnieuw zet hij de wereld op zijn kop!

Volgens Stapel is de sociale psychologie deze schade gelukkig alweer grotendeels te boven, waarbij juist de ontdekking van zijn fraude louterend lijkt te hebben gewerkt: wat integriteit betreft zijn de sociaalpsychologen inmiddels ‘lichtjaren verder dan andere wetenschapsgebieden’, zo beweert hij. Op welk onderzoek zou deze uitspraak gebaseerd zijn?

maandag 26 augustus 2013

Win-win?

Was dit nu een win-win-situatie? Krant (in dit geval Trouw) krijgt een primeur, en fraudeur (in dit geval Diederik Stapel) krijgt een podium. Hij wil een 'tweede kans' en mag zich van Trouw onbelemmerd in de etalage plaatsen. Resocialisatie is een groot goed, voor een maatschappij een teken van beschaving. Maar moet de 'resocialisant' dit per se luidkeels opeisen? Ik gun Stapel het beste, maar dit interview wekt weinig sympathie (zie ook de commentaren die het opriep).

Maar ik wil het over iets anders hebben. De sociale psychologie heeft door de affaire flinke klappen opgelopen. In de media zijn de schijnwerpers gezet op de 'experimentjes' van de sociaalpsychologen, waarbij de 'vleeshufters' nooit ver weg zijn. Zo'n imagoschade is moeilijk te repareren. De genadeloze manier waarop de commissie-Levelt de onderzoekscultuur in de gehele sociale psychologie ('van hoog tot laag') heeft getypeerd, hielp ook niet mee. Het zou gaan om 'slodderwetenschap' waarin het met de methodologische regels niet al te nauw werd genomen - geen fraude, maar wel een omgeving waarin fraude kon gedijen.

Stapel spreekt zich in het interview uit over het geweld dat de commissie-Levelt zijn voormalige vakgebied zou hebben aangedaan. Hij schaart zich daarmee in het koor van de boze sociaal-psychologen die vinden dat Levelt het rapport moet rectificeren. Maar in zijn drang tot zelfrechtvaardiging wrijft Stapel zelf onbezonnen op de vlek op het blazoen van de sociale psychologie. Wat zegt hij? Na de - grotendeels door hemzelf veroorzaakte imagoschade - heeft de sociale psychologie 'zich herpakt': ze staat nu vooraan, wat betreft integriteit. 'Ze zijn nu lichtjaren verder dan andere wetenschapsgebieden.' Impliciet staat hier dat Levelt gelijk had: er was een probleem met wetenschappelijke integriteit in de sociale psychologie. En, mind you, als gevolg van Stapels fraude heeft het vakgebied een grote sprong voorwaarts gemaakt! Dat is niet te danken aan de 'ouderen' , aldus Stapel: 'Vooral veel jonge onderzoekers houden zich bezig met het heel goed en degelijk uitvoeren en repliceren van onderzoeken.'

Inmiddels lijkt ook de commissie-Levelt een imagoprobleem te krijgen. Een oud-promovenda van Stapel deed in dezelfde aflevering van Trouw een boekje open over de interviewtechnieken van de commissie: suggestieve vragen, gebrek aan systematiek en geen controleerbare verslaglegging van de gesprekken. Het zou de commissie sieren als ze hier serieus en gedocumenteerd uitleg over zou geven. Mogelijk gaat het om een uitglijer in één van de gesprekken, en is de commissie in haar interviewmethode verder net zo streng in de leer geweest als in haar methodologische eisen aan de sociale psychologie. Ik wil het hopen, maar ben er nu toch niet helemaal zeker van.