Editorial

„Die meisten Hypothesen sind leider falsch“

Interview: Hans Zauner


hg_18_12_03a
Auch wenn es hier so aussieht: Dass Zebrafinken-Weibchen Männchen mit roten Beinringen bevorzugen, stimmt nicht. Wie offenbar so vieles in Ökologie, Evolution und Verhaltensforschung. Foto: Wolfgang Forstmeier

Zebrafinken-Weibchen finden rote Ringe an den Beinen von Männchen attraktiv – dachte man 35 Jahre lang. Wolfgang Forstmeier und seine Mitarbeiter am Max-Planck-Institut für Ornithologie in Seewiesen konnten die publizierten Ergebnisse aber nie bestätigen. Überhaupt hält er inzwischen die Hälfte der veröffentlichten Ergebnisse im weiten Feld von Ökologie, Evolution und Verhalten für falsch. Im Laborjournal-Gespräch erklärt er, warum.

Laborjournal: Forscher, die mit Zebrafinken arbeiten, binden den Vögeln für bestimmte Experimente bunte Ringe an die Beine, um die Individuen unterscheiden zu können. Die Wissenschaftler vermeiden dabei aber zwei Farben: Rot und Grün. Wieso?

Forstmeier » Man hat andere Farben verwendet, weil man aufgrund einer Reihe von Publikationen gedacht hat, dass Rot und Grün das Paarungsverhalten der Tiere beeinflussen. Wir hatten aber schon lange den Verdacht, dass die Farbe des Rings in Wirklichkeit gleichgültig ist. Über ein paar Experimente hinweg haben wir dann bewusst Rot und Grün verwendet. Wir riskierten also, diese Experimente kaputt zu machen. Tatsächlich aber fanden wir exakt die Variation, die man durch Zufall erwarten würde. Die Farbe des Rings ist für das Paarungsverhalten der Tiere folglich egal.

Der Hintergrund für die These, dass rote Ringe attraktiver für Weibchen sein sollen, war, dass auch die Schnäbel der Zebrafinken rot sind?

Forstmeier » Das ist eine zufällige Koinzidenz – aber man dachte deshalb lange, dass das alles Sinn ergibt. Angefangen hat die Geschichte in Urbana, Illinois, wo Nancy Burley in den 1980er-Jahren Ringe in verschiedenen Farben durchgetestet und ihrer Attraktivität nach angeordnet hatte. Und da waren Rot und Grün an den entgegen gesetzten Enden der Palette.

Es hat sich also über dreißig Jahre hinweg eingebürgert, rote und grüne Ringe zu vermeiden, um die Ergebnisse nicht zu verfälschen – obwohl da gar nichts dran ist?

Forstmeier » Nicht nur das. Es gab auch Forscher, die sagten, diese Beringung mit roten und grünen Bändern ist doch eine elegante Methode, um Verhalten experimentell zu manipulieren. Welche Konsequenzen hat es beispielsweise, wenn ich ein Weibchen wahlweise mit einem rot oder grün beringten Männchen verpaare. Wie viele Eier legt es, wie schnell wachsen die Jungen, wie lang sind die Flügel… Eben alles, was man messen kann – zudem auch noch spezifisch für jedes Geschlecht, in Abhängigkeit von der Lege-Reihenfolge der Eier, und immer so weiter.

Da gibt es so viele Parameter, dass man sich fast denken kann, dass man irgendwo etwas findet...

Forstmeier » Das ist die Gefahr! Ich mache so viele Tests, dass immer etwas dabei herauskommt. Das Problem ist, dass man solche „signifikanten“ Ergebnisse selbst nicht immer mit kühlem Kopf bewerten kann. Es ist schwer, scheinbar positive Resultate richtig einzuordnen. Was als „signifikant“ herauskommt, wird man immer im Paper erwähnen. Aber die nicht-signifikanten Ergebnisse werden oft nicht erwähnt. Und dadurch kommt es in der Masse der Publikationen zu einer Verzerrung.

Stichwort Verzerrung: Für ihre Metaanalyse in Evolution (Vol. 72: 961-76), in der Sie zeigen, dass die Farbe der Ringe keinen Einfluss hat, haben Sie auch weitere Daten mit negativem Ergebnis gefunden. Die wurden aber zuvor nicht publiziert?

Forstmeier » Diese Daten stammen aus einer Doktorarbeit von Nikolaus von Engelhardt, der heute an der University of Plymouth ist. Er hatte 2001 drei Labors dazu gebracht, die Experimente mit den farbigen Ringen unabhängig zu überprüfen. Auch diese Ergebnisse entsprechen dem, was man durch Zufall erwarten würde – sie wurden aber nie publiziert. Die Daten haben wir in unser Paper hereingenommen, um zu zeigen, dass es nicht etwa an einem „Seewiesen-Faktor“ oder sonstigen Kontext-Effekten liegt, dass wir den Rot-Grün-Effekt nicht reproduzieren können.

Sie haben sich die über viele Jahre hinweg publizierten Ergebnisse auch in Abhängigkeit von der Zeit angeschaut. Das Ergebnis, kurz zusammengefasst: Je älter die Resultate, desto signifikanter kommt ein Rot-Grün-Effekt heraus.

Forstmeier » Die Effekte sind zuerst groß und verschwinden mit der Zeit. Das ist oft so, weil Effekte häufig gerade dadurch entdeckt werden, dass man sie anfangs überschätzt. Man hat am Anfang eine kleine Stichprobe mit einem signifikanten Ergebnis, dann ist der beobachtete Effekt zwangsläufig eher groß. Aber ist der Effekt wirklich da? Oft stellt sich dann in weiteren Experimenten heraus, dass er nur halb so groß ist wie ursprünglich gedacht, oder sogar nur ein Zehntel davon. Für den Rot-Grün-Effekt der Ringe beim Zebrafinken würde ich behaupten: Er ist praktisch Null.

Die farbigen Ringe der Zebrafinken, die entgegen langjähriger Annahmen doch keinen Einfluss auf das Paarungsverhalten haben, sind ein illustratives Beispiel – aber es ist schon angeklungen: Das ist offenbar kein Einzelfall, sondern zeigt eher, dass generell etwas im Argen liegt.

hg_18_12_03b
Wolfgang Forstmeier: „Man lügt sich selbst in die Tasche.“ Foto: privat

Forstmeier » In der Tat wäre eine gesunde Einstellung gegenüber der existierenden Literatur, dass vielleicht die Hälfte darin richtig ist – und die andere Hälfte falsch. Bei bestimmten Fragen wird es sogar so sein, dass man von völlig falschen Annahmen ausgeht, und dann sind alle publizierten Antworten in einem Teilbereich der Forschung falsch. So bekommt man das an der Uni natürlich nicht beigebracht. Wenn ich aber ein Lehrbuch lese und mir dabei vorstelle, dass fünfzig Prozent von all dem, was da drin steht, falsch ist, dann ist das hoffentlich auch motivierend für die heutigen Studenten. Denn die können jetzt nachprüfen, was wirklich wahr ist!

Kann man den Anteil der nicht-reproduzierbaren Literatur im Feld „Verhalten, Ökologie und Evolution“ quantifizieren? Die Psychologen haben beispielsweise systematische Wiederholungsstudien durchgeführt – mit dem Resultat, dass sich nur für etwa vierzig Prozent der Studien die Ergebnisse bestätigen ließen (siehe Gespräch in LJ 5/2017: 20-23)

Forstmeier » Nein, da gibt es noch keine Zahlen. Man muss auch bedenken, dass sich die Disziplinen und Fragestellungen sehr unterscheiden. Das Feld „Verhalten, Ökologie, Evolution“ umfasst so viel, das kann man nicht alles über einen Kamm scheren. Ich vermute aber, dass es insgesamt etwa in der gleichen Größenordnung herauskommt wie bei den Psychologen. Bei mechanistischen Arbeiten hat man es oft mit großen Effekten zu tun, die man gut messen kann – das ist vermutlich eher verlässlich. In anderen Teilgebieten kann es dagegen tatsächlich sein, dass schlichtweg alles falsch ist.

Ich habe den Eindruck, in der biologischen Literatur wurde lange nicht unterschieden zwischen explorativer und konfirmatorischer Forschung. Anders gesagt, dem Leser wird gar nicht klar, ob die Autoren eine vorher scharf festgelegte Hypothese testen, oder einfach mal Verschiedenes ausprobiert haben. Und oft kannten vielleicht auch die Forscher selbst den Unterschied zwischen diesen beiden Ansätzen nicht.

Forstmeier » Wenn man fragt, wer für die Reliability Crisis verantwortlich ist, dann könnte man oberflächlich betrachtet die Schuld bei den Wissenschaftlern suchen. Erstens: Wissenschaftler tun sich schwer, objektiv zu sein. Zweitens: Die Mehrheit der Wissenschaftler sind schlechte Statistiker. Aus beidem kann man schließen: Dann brauchen wir eine bessere Ausbildung an den Universitäten. Objektivität zum Beispiel bekommt man im Studium nicht richtig beigebracht. Man muss verstehen, dass Wissenschaftler nicht unparteiisch sind, sondern immer auch Anwalt in eigener Sache.

Idealerweise sollten Wissenschaftler versuchen, ihre eigenen Hypothesen zu zertrümmern... So hat sich das Karl Popper mal in etwa vorgestellt.

Forstmeier » Aber wir zertrümmern unsere Hypothesen nicht, wir wollen sie ja in der Regel unterstützen. Der Mensch ist nicht dafür geschaffen, objektiv zu sein. Confirmation Bias, Observer Bias, und so weiter – all diese Quellen für Verzerrungen muss man erst mal erkennen können. Das müsste man den Studenten gezielt beibringen.

Und nun zum Thema Statistik...

Forstmeier » Wie erkennt man einen schlechten, wie einen guten Statistiker? Der schlechte Statistiker produziert in der Regel kleine p-Werte, da ist alles signifikant. Der gute Statistiker produziert große p-Werte, da ist wenig signifikant. Die meisten Hypothesen sind eben leider falsch. Aber Negativ-Ergebnisse gelten als langweilig und nicht publizierbar. Also geht der schlechte Statistiker nicht weiter darauf ein, sondern macht lieber Exploration im Datensatz und betreibt HARKing („Hypothesizing After the Results are Known“). Damit lügt man sich jedoch in die Tasche.

Hat man aber eine bestimme Hypothese in einen Antrag reingeschrieben, steht man am Ende schon besser da, wenn man diese Hypothese auch bestätigt. „Da hat jemand das richtige Näschen gehabt“, heißt es dann bewundernd.

Forstmeier » Jetzt kommen wir zum entscheidenden Punkt: Die Wissenschaftsförderung. Warum sind Wissenschaftler nicht objektiv, und warum sind sie schlechte Statistiker? Weil es das System belohnt, einerseits subjektiv und andererseits ein schlechter Statistiker zu sein. Beim schlechten Statistiker ist alles signifikant – er hat es leicht, viel zu publizieren. Und der subjektive Wissenschaftler findet immer eine schöne Story, die er verkaufen kann. Das wird gefördert. Die Bewertung von Wissenschaftlern und Anträgen basiert auf Produktivität und Popularität. Das aber ist kontraproduktiv. Wissenschaftliche Gründlichkeit wird dagegen nicht gemessen und nicht bewertet. Dadurch hat es der schlechte Wissenschaftler leichter als der gründliche.

Es ergibt zwar Sinn, dass wir produktivere Leute fördern. Aber es muss Grenzen geben. Wenn jemand zu viel publiziert, dann können diese Veröffentlichungen nicht gut sein – da müsste es eigentlich Minuspunkte dafür geben. Schlampige, schnell geschriebene Publikationen schaden der Wissenschaft.

Das zweite Kriterium, neben der Produktivität, ist die Popularität. Es geht immer nur um Impact, Impact und Impact. Also um Zitierungen.

Was müsste sich also ändern?

Forstmeier » Man bräuchte Ansätze, um rigorose und objektive Wissenschaft zu quantifizieren. Die Förderer dürfen ihr Geld nicht mehr so verschwenden wie bisher. Wenn man nur Popularität und Novelty will, dann bekommt man das auch. So erzeugen Forscher viele scheinbar spektakuläre Ergebnisse, für deren gründliche Überprüfung gibt es aber keine Zeit und kein Geld. Und so bedeutet „spektakulär“, dass die Ergebnisse unwahrscheinlich sind. Ich wiederhole mich, aber zum Teil muss man daher tatsächlich sagen: Das System hat die Leute dazu gezwungen, subjektiv und schlechte Statistiker zu sein.

Mir ist bewusst, dass ich in dieser Hinsicht privilegiert bin. Ich habe eine feste Stelle hier am Max-Planck-Institut, ich kann jedes Experiment so lange wiederholen, bis ich mir wirklich sicher bin. Zudem habe ich mit den Zebrafinken ein System, das große Stichproben erlaubt.

Ich arbeite seit fünfzehn Jahren mit Zebrafinken. Ich habe zu Anfang Hunderte Paper gelesen – und dann dachte ich, jetzt habe ich verstanden, wie das mit der sexuellen Selektion bei den Zebrafinken funktioniert. Aber nach ein, zwei Jahren war ich völlig konsterniert, weil die Vögel gar nicht das zeigten, was ich aus der Literatur entnommen hatte. Und mittlerweile bin ich überzeugt, dass viele der Ideen, die zur sexuellen Selektion beim Zebrafinken im Umlauf sind, völlig falsch sind.

Ein Ansatz, um es in Zukunft besser zu machen, kommt aus der „Open-Science“-Bewegung: Neben offenen Daten und Skripten wird auch die sogenannte Präregistrierung diskutiert und erprobt – also ein ganz anderes Vorgehen als gewohnt: Bei einem präregistrierten Experiment veröffentlicht man den genauen Plan des Experiments, noch bevor man anfängt, die Daten zu sammeln.

Forstmeier » Wir haben das jetzt einmal gemacht – und ich finde, zukünftig sollte jeder Doktorand zumindest eine präregistrierte Studie durchziehen. Weil man dabei lernt, gut zu planen. Ich muss mir vorher alles genau überlegen: Was ist meine Stichprobengröße, was sind meine „Stopping Rules“ für die Beendigung des Experiments, wie will ich meine Hypothesen am Ende eigentlich testen,... Das Schöne daran ist, dass man den Methodenteil und einen Teil der Einleitung schon vor dem Experiment geschrieben hat. Man muss am Ende nur noch die Ergebnisse ausfüllen, Einleitung und Diskussion vervollständigen – und fertig.

Manche Kritiker halten jedoch dagegen, man hätte dann keine Möglichkeit mehr, zu explorieren. Das stimmt aber nicht, ich kann ja einfach einen Abschnitt unter dem Titel „Data Exploration“ laufen lassen. So kann der Leser letztlich unterscheiden zwischen echter A-Priori-Hypothese, die konfirmatorisch festgenagelt wird, und explorativen Post-Hoc-Hypothesen. An den präregistrierten Studien wird man also sehen, wie häufig unsere Hypothesen tatsächlich falsch sind – und wie weit wir in unserer Forschung noch von der Realität entfernt sind.

Die Replikationskrise ist kein spezielles Problem von „Ökologie, Verhalten und Evolution“. Aber mir scheint, die Probleme sind in diesen Fächern teilweise schwerer fassbar, weil viele Studien quasi Einzelstücke sind, die an Nicht-Modellorganismen durchgeführt werden.

Forstmeier » Wenn ich einen Effekt wirklich festnageln muss, dann ist ein Modellorganismus wie der Zebrafink natürlich praktisch. Andere Systeme sind aber zum Teil so exotisch und aufregend, dass man sie fast zum Modellorganismus machen müsste, weil man einige interessante Fragen eben nur dort studieren kann. Da werden wir auch in Zukunft beides nebeneinander benötigen: Modellorganismen und „exotische“ Systeme.



Letzte Änderungen: 29.11.2019