Die Replikationskrise in der Psychologie

Ein großes Projekt mit 100 sehr soliden Studien (Trennschärfe > 90 %) hat gezeigt, dass nur einer von drei Effekten in der Psychologie überhaupt reproduziert werden kann. Das ist ziemlich niederschmetternd für ein Feld, dass sich selbst als Wissenschaft versteht. Bevor man sich überlegt, woran das liegt, hilft es sich erstmal zu schauen, woran es NICHT liegen kann. Dazu gehört: Signifikanzniveau und Trennschärfe (Statistical Power).

Die Psychologie verwendet dasselbe Signifikanzniveau wie andere Felder, a = 0,05. Grob entspricht das der Wahrscheinlichkeit, dass ein nicht-existenter Effekt als signifikant festgestellt wird (Fehler 1. Art). Untersucht man 100 nicht-existente Effekte, würde man 5 fälschlicherweise als gültig einstufen. Die Trennschärfe sagt hingegen, wie wahrscheinlich es ist, einen existenten Effekt als signifikant einzustufen (Eins minus Fehler 2. Art). Also wie gut man existente Effekte als solche identifizieren kann. Empfohlen ist eine Trennschärfe von s = 0,80. Mit diesem Standard würde man bei der Untersuchung von 100 existenten Effekten 80 als gültig einstufen.

Effekt …existiert nichtexistiert
als gültig festgestelltas
nicht als gültig festgestellt1-a1-s

Aus diesen beiden Größen lässt sich leicht berechnen, wie wahrscheinlich es ist, dass ein als gültig eingestufter Effekt auch tatsächlich existiert. Das entspricht der prinzipiellen Replizierbarkeit. Also der Replikationsrate, die man mit Replikationsstudien sehr hoher Güte finden würde. Für a = 0,05 und s = 0,80 bekommt man:

P(Effekt existiert gegeben Effekt festgestellt) = 94 %

Anmerkungen dazu siehe * / **. Bei diesem Standard ergibt sich also eine sehr hohe Replizierbarkeit. 94 % der Effekte, die man als gültig einstuft, gibt es wirklich. Als Grund für die Replikationskrise in der Psychologie wird oft die mangelnde Trennschärfe genannt. Es stimmt auch tatsächlich, dass psychologische Studien im Mittel eher bei einer Trennschärfe von s = 0,50 statt der empfohlenen s = 0,80 liegen. Aber: Das ist nicht der Grund für die miese Replizierbarkeit. Auch mit dieser geringen Trennschärfe ergibt sich eine Replizierbarkeit weit über den ziemlich mageren 33 % des Reproducibility Projects:

P(Effekt existiert gegeben Effekt festgestellt) = 91 %

Signifikanzniveau und Trennschärfen passen also. Was ist es dann? Vielleicht der Publikationsbias? Wenn, dann müsste dieser sehr stark ausgeprägt sein. Nimmt man an, dass alle nicht-existenten Effekte, welche signifikant festgestellt wurden, veröffentlicht werden, und nur mit einer Wahrscheinlichkeit q veröffentlicht werden, wenn diese nicht-signifikant festgestellt wurden (also der Wahrheit entsprechend), dann gilt:

P(Effekt festgestellt gegeben Effekt nicht-existent) = 0,05 / (0,05+0,95*q)

Ohne Publikationsbias (q = 1) bekommt man wieder das Signifikanzniveau:

P(Effekt festgestellt gegeben Effekt nicht-existent) = 5 %

Wie sieht es bei saftigem Publikationsbias aus? Wenn etwa 75 % aller nicht-signifikanten Ergebnisse in der Schublade verschwinden? Dann wäre q = 0,25 und:

P(Effekt festgestellt gegeben Effekt nicht-existent) = 17 %

Klare Steigerung, aber die Mehrheit der Studien zu diesem nicht-existenten Effekt würde trotzdem die Nullhypothese behalten und fast alle Meta-Studien würden zum korrekten Ergebnis kommen. Richtig kritisch wird es erst, wenn 95 % aller nicht-signifikanten Ergebnisse in der Schublade verschwinden (q = 0,05):

P(Effekt festgestellt gegeben Effekt nicht-existent) = 51 %

Ab hier wird es schwer bis unmöglich einen nicht-existenten Effekt als solchen zu identifizieren. Im Prinzip ein Münzwurf und die Replizierbarkeit des gesamten Feldes würde großen Schaden nehmen. Der Publikationsbias müsste also enorm ausgeprägt sein, um einen merklichen Effekt auf die Replizierbarkeit zu haben. Ist ein solches Ausmaß überhaupt realistisch? Könnte sein. In psychologischen Journalen überwiegen signifikante Effekte bei weitem, nicht-signifikante Effekte sind notorisch schwer zu publizieren.

Es ist leicht einzusehen, dass der Publikationsbias bei der Replikationskrise eine Rolle spielt, aber mir fällt es schwer zu glauben, dass es DER Hauptgrund ist. Es ist sicherlich ein Grund. Aber: Publikationsbias ist in der Praxis leicht zu identifizieren und korrigieren. Jede Meta-Studie kann Publikationsbias mittels dem Egger’s Test finden und anschließend mittels Trim-And-Fill korrigieren. Es ist ein recht simples und intuitives statistisches Verfahren. Wäre der Publikationsbias der Hauptgrund, wäre man dem nicht nur schnell auf die Schliche gekommen, sondern hätte ihn auch leicht bereinigen können. Es muss noch andere Gründe geben.

Bei diesen anderen Gründen wird oft auf unlautere statistische Methoden verwiesen. Hier Tipps, wie man Signifikanz für Effekte bekommt, die gar nicht existieren. Leider so oft angewandt in der Psychologie.

  • Multiple Hypothesen gleichzeitig untersuchen oder, noch besser, ohne Hypothesen das komplette Datenset abgrasen = Fischen nach Effekten ***
  • Uncoole Ausreißer / Datenpunkte entfernen = P-Hacking
  • Datensammlung einstellen, sobald die gewünschte Signifikanz auftaucht
  • Datenset einfach komplett erfinden

Woran es auch liegen mag. Wichtig ist die Replikationskrise nicht nur aus statistisch-wissenschaftlicher Perspektive zu sehen. Es ist kein Kavaliersdelikt, kein Verbrechen ohne Opfer. Opfer sind psychisch kranke Menschen, die sich auf die Arbeit der Forscher stützen müssen. Arbeit, die sich leider nur in einem von drei Fällen überhaupt replizieren lässt. Inakzeptabel aus wissenschaftlicher Perspektive, aus menschlicher Perspektive aber eine wahre Katastrophe.

Glücklicherweise haben viele Journale reagiert. Experimente werden jetzt vorregistriert und nach Durchführung veröffentlicht, unabhängig von der Signifikanz des Ergebnisses. So wird dem Publikationsbias keinen Raum gegeben. Da die Registrierung auch Sample Size enthält, entfällt der Trick mit verfrühter Einstellung der Datensammlung. Und die zu testenden Hypothesen sind dort auch schon aufgeführt, was dem Fischen nach Effekten einen Strich durch die Rechnung macht. Von der Vorregistrierung darf man also eine massive Besserung erwarten.

* Genauer müsste man hier auch als Variable anfügen, wie groß der Anteil q an existenten Effekten an der Gesamtzahl der gestesteten Effekten ist. Die Rechnung, so wie sie hier gemacht ist, nimmt 50/50 an. Wer andere Szenarien testen möchte, kann P(Effekt existiert gegeben Effekt festgestellt) = q*s/(q*s+(1-q)*a) verwenden.

** Die tatsächliche Replikationsrate ist etwas geringer als die prinzipielle Replizierbarkeit, da keine Replikationsstudie perfekt ist, jede ein von Null verschiedenes Signifikanzniveau und eine von 1,0 verschiedene Trennschärfe hat. Die Replikationsrate liegt bei etwa (Trennschärfe von Replikationsstudie)*(Replizierbarkeit). Bei Replikationsstudien mit hoher Trennschärfe darf man den Unterschied jedoch ignorieren.

** So eine Herangehensweise lässt sich auch ordentlich machen, sie ist nicht prinzipiell problematisch, jedoch benötigt sie a) Erwähnung aller gemachten Tests und b) Korrektur des Signifikanzniveaus gemäß den Anzahl Tests

One Comment

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out /  Change )

Google photo

You are commenting using your Google account. Log Out /  Change )

Twitter picture

You are commenting using your Twitter account. Log Out /  Change )

Facebook photo

You are commenting using your Facebook account. Log Out /  Change )

Connecting to %s