Editorial

Überdenken

Die Reproduzierbarkeitskrise und das Missverständnis von der Labormaus als Messinstrument

Von Hanno Würbel, Bern


Essays
Illustr.: iStock / Akindo

(12.07.2017) Oftmals ist es eine Art seltsamer Konsens, der Forschenden den Blick auf Risiken und Nebenwirkungen ungeeigneter Forschungpraktiken verschleiert. Besonders ausgeprägt ist dieses Phänomen beim Umgang mit Labortieren, denn gerade durch Standardisierung werden Tierversuche prinzipiell zu Einzelfallstudien.

Die aus dem hier beantragten Forschungsprojekt gewonnenen Erkenntnisse gelten möglicherweise nur für die beschriebenen Versuchsbedingungen. Ob sich die Ergebnisse von uns wiederholen oder von einem unabhängigen Team in einem anderen Labor bestätigen lassen, kann anhand der hier beantragten Versuche nicht beurteilt werden.

Stellen Sie sich diesen Abschnitt als abschließende Würdigung der Bedeutung eines Forschungsprojekts vor, zum Beispiel unter Punkt 2.5 „Weitere Angaben“ eines DFG-Projektantrags (Deutsche Forschungsgemeinschaft, DFG-Vordruck 53.01 – 05/16). Selbstverständlich wird kein Antragsteller, keine Antragstellerin je so etwas schreiben. Mit gutem Grund – denn kein Gutachter, keine Gutachterin könnte ein solches Projekt zur Finanzierung empfehlen.

Doch leider trifft dieser Abschnitt vermutlich auf viele Forschungsprojekte zu, insbesondere in der biomedizinischen Forschung an Tieren. Zwar vergeben die DFG, der Schweizerische Nationalfonds (SNF) oder der Österreichische Wissenschaftsfonds (FWF) Förderbeiträge im Vertrauen darauf, dass die zu erwartenden Ergebnisse reproduzierbar sein werden; einen Nachweis dafür verlangen sie allerdings nicht. Gleiches gilt für die Beurteilung von Tierversuchsanträgen mittels Schaden-Nutzen-Analyse. Reproduzierbarkeit wird zwar vorausgesetzt, eine Darlegung von Maßnahmen zu ihrer Sicherstellung wird von den Genehmigungsbehörden jedoch nicht verlangt [1]. Auch die Herausgeber wissenschaftlicher Fachzeitschriften sehen bislang keinen Anlass im Rahmen der Fachgutachten (Peer Review) nach Evidenz für die Reproduzierbarkeit der Ergebnisse zu fragen, bevor ein Manuskript zur Publikation akzeptiert wird ( – zumindest bis vor kurzem, denn als erste Fachzeitschrift hat Nature am 31. Mai 2017 mit einem Life Sciences Reporting Summary begonnen, genau dies zu tun). Dass solch systematisches „Nicht-Hinsehen“ früher oder später in einer „Reproduzierbarkeitskrise“ münden würde, dürfte eigentlich nicht überraschen.

Das hat allerdings nichts mit arglistiger Täuschung oder gar Betrug zu tun. Die gibt es zwar auch, aber viel zu selten, als dass sie imstande wären, eine Krise von solchem Ausmaß heraufzubeschwören. Nein, die gegenwärtige Reproduzierbarkeitskrise in den biomedizinischen Wissenschaften ist Folge eines weitreichenden Konsenses unter Forschenden, welcher den Blick auf Risiken und Nebenwirkungen ungeeigneter Versuchspläne, unsorgfältiger Versuchsdurchführung, ungenügender Statistikkenntnisse und ungerechtfertigter Schlussfolgerungen verschleierte. Erst jetzt, wo sich die Nebel langsam lichten und meta-wissenschaftliche Studien die Problemzonen ausleuchten, sickert diese Erkenntnis allmählich ins kollektive Bewusstsein.

Anders als mit solch einem Konsens ist die Arglosigkeit, mit der manche Forscher selbst höchst dubiose Forschungspraktiken in aller Offenheit darlegen, kaum zu erklären. So lobte etwa jüngst Brian Wansink, ein führender US-Lebensmittelwissenschaftler, in einem Blog-Beitrag (“The Grad Student Who Never Said No” [2]) eine seiner Doktorandinnen öffentlich für ihre „deep data dives“. Diese waren nichts anderes als offensichtliche Fälle von HARKing (Hypothesizing After Results are Known), dem nachträglichen Anpassen von Hypothesen an die Daten, und p-Hacking, der Suche nach statistisch signifikanten p-Werten (p < 0.05) durch multiples Testen verschiedener Variablenkombinationen. Damit wurden die Daten eines Versuchs, der keinen Behandlungseffekt ergeben hatte, so lange „massiert“, bis sich doch noch interessante – sprich: „statistisch signifikante“ – Effekte zeigten. Doch damit ist Brian Wansink bei weitem nicht der Einzige.

Wo Konsens herrscht, ist auf rasche Besserung nicht zu hoffen. Dies zeigte sich auch in einer kürzlich von uns in der Schweiz unter Forschenden durchgeführten Online-Umfrage [3]. Obwohl die Verblindung möglichst aller an einem Tierversuch beteiligten Personen eines der wichtigsten Kriterien guter Forschungspraxis darstellt, gaben mehr als die Hälfte (53 Prozent) aller Teilnehmenden freimütig an, Tierversuche generell offen, das heißt unverblindet durchzuführen. Eine Verblindung des Personals wäre zu kompliziert, zu aufwändig oder mangels Personal gar nicht durchführbar; zudem traue man sich zu, Daten auch ohne Verblindung objektiv zu erheben – der „Kluge-Hans-Effekt“ und der „Rosenthal-Effekt“ lassen grüßen. Solche in persönlichen Gesprächen geäußerten Ausreden werfen ein Schlaglicht auf die verbreitete Geringschätzung elementarer Kriterien guter Forschungspraxis unter Forschenden.

Konsens besteht in der Wissenschaft auch in Form von willkürlichen Setzungen, die im Laufe der Zeit zu wissenschaftlicher Orthodoxie erklärt werden. Ein interessantes Beispiel hierfür ist die Standardhaltung von Labortieren. Bei Labormäusen besteht diese derzeit aus einer Kunststoffschale (üblicherweise vom Typ Makrolon II) mit Gitterdeckel, Futterpellets und Wasser ad libitum, Holzspänen als Einstreumaterial sowie Baumwoll-Nestlets für den Nestbau, gestapelt auf Käfigregalen in klimatisch kontrollierten Räumen unter spezifisch pathogenfreien (SPF) Bedingungen.

Die Baumwoll-Nestlets gehören in Europa allerdings erst seit 2013 dazu. Damals trat die revidierte EU Richtline 2010/63/EU in Kraft, verbunden mit der Auflage einer minimalen Käfiganreicherung (Environmental Enrichment). Davor war unter Wissenschaftlern teilweise erbittert um solches Enrichment gestritten worden. Ethologen hatten bei Labormäusen Verhaltensstörungen und andere Anzeichen für beeinträchtigtes Wohlergehen beobachtet. Der Ruf nach artgemäßem Enrichment zur Verbesserung der Standardhaltung für Labormäuse wurde zunehmend lauter. Doch viele Wissenschaftler wehrten sich vehement und ihre Kritik blieb lange Zeit eine hohe Hürde auf dem Weg zu tierfreundlicheren Haltungsbedingungen: Environmental Enrichment beeinträchtige die Versuchsergebnisse und führe zu erhöhter Variation in den Versuchsergebnissen, was wiederum die Versuchstierzahlen in die Höhe treiben würde. Bemerkenswert an dieser Argumentation war nicht nur, dass es für sie weder eine theoretische Grundlage, noch empirische Evidenz gab [4]. Bemerkenswert war vor allem, was da genau verteidigt wurde.

Die Standardhaltung für Labormäuse richtete sich primär nach ökonomischen, ergonomischen und hygienischen Kriterien: günstig und platzsparend, leicht zu handhaben und gut zu reinigen. Weder die Bedürfnisse der Tiere (außer nach Futter und Wasser), noch die Qualität der Versuchsergebnisse spielten bei ihrer Konzeption eine entscheidende Rolle. Anders wären all die nachweislich durch diese Haltung verursachten Beeinträchtigungen bei Labornagetieren gar nicht zu erklären gewesen: dass Mäuse mangels elementarer Ressourcen Verhaltensstörungen entwickelten [5], dass sie ohne adäquates Nestbaumaterial unter chronischem Kältestress leiden [6], dass frei verfügbares Futter und mangelnde Bewegung bei Ratten Übergewicht und Glukoseintoleranz mit vorzeitiger Todesfolge verursachen [7], oder dass Tiere unter SPF-Bedingungen nicht über den Immunstatus von Neugeborenen hinauskommen [8]. Über all diese Beeinträchtigungen wurde jedoch geflissentlich hinweggesehen – mit der absurden Konsequenz, dass Maßnahmen zu ihrer Behebung (also Environmental Enrichment) als Bedrohung für die wissenschaftliche Qualität aufgefasst und mit „alternativen Fakten“ (geringere Präzision, beeinträchtigte Reproduzierbarkeit) bekämpft wurden.

Es lohnt sich, die verquere Logik hinter dieser Argumentation genauer zu betrachten. Sie entstammt einem fundamentalen Fehlschluss und dem unseligen Anspruch, Versuchstiere wie Messinstrumente zu kalibrieren. Ausgangspunkt ist die Erkenntnis, dass der Phänotyp von Tieren plastisch ist und deren Reaktionen auf Versuchsbehandlungen in Abhängigkeit von ihrem Phänotyp variieren können. Der Fehler lag im naiven Glauben, der Einfluss phänotypischer Plastizität lasse sich durch Standardisierung des Genotyps und der Umwelt aus der Welt schaffen. Doch genauso wie der Einfluss des Genotyps auf die Versuchsergebnisse nicht verschwindet, wenn nur Tiere eines einzigen Genotyps betrachtet werden, verschwindet auch der Einfluss der Umwelt nicht, wenn nur Tiere aus einer bestimmten Haltungsform untersucht werden. Das Einzige, was mit der Standardisierung (ver)schwindet, ist die Aussagekraft der Versuche. Durch die Standardisierung von Genotyp und Umwelt wird der Gültigkeitsbereich der Versuchsergebnisse unweigerlich auf diese standardisierten Bedingungen eingeschränkt. Oder anders ausgedrückt: durch Standardisierung wird ein Tierversuch zur Einzelfallstudie.

Essays
Illustr.: iStock / Akindo

Nun könnte man annehmen, dass eine rigorose Standardisierung wenigstens der Reproduzierbarkeit förderlich sein sollte – doch genau hierin liegt der Fehlschluss [9]. Und wie bei den meisten Fehlschlüssen liegt auch diesem ein scheinbares Paradoxon zu Grunde: dass die Umwelt und damit die Ausprägung phänotypischer Merkmale in der Versuchspopulation nicht trotz, sondern gerade wegen der Standardisierung in jedem Versuch eine andere ist [10]. Zwar lassen sich manche Umweltfaktoren (beispielsweise Gruppengröße, Käfiggröße, Futter, Temperatur) versuchs- und laborübergreifend standardisieren. Andere dagegen (wie etwa die Mensch-Tier-Beziehung oder die Interaktion olfaktorischer, visueller und auditiver Reize) lassen sich weder innerhalb noch zwischen Labors über Versuchswiederholungen hinweg standardisieren. Wenn sich aber die Ausprägungen phänotypischer Merkmale in den Stichproben zweier ansonsten identischer Wiederholungsversuche unterscheiden, werden Äpfel mit Birnen verglichen. Unter diesen Bedingungen kann Reproduzierbarkeit der Ergebnisse nicht unbedingt erwartet werden [10].

Je rigoroser die Versuchsbedingungen standardisiert werden, desto stärker fallen nicht-standardisierbare Unterschiede zwischen Wiederholungsversuchen ins Gewicht. Es hilft auch nicht, möglichst viele Faktoren der Versuchsbedingungen (beispielsweise die Größe des Tierhaltungsraums, die Farbe der Wände oder die Farbtemperatur des Lichts) aufzulisten, um allfällige Unterschiede in den Ergebnissen nachträglich anhand bestimmter Unterschiede zwischen den Versuchen „wegzuerklären“. Solange ein Faktor nicht innerhalb eines Versuchs systematisch variiert und sein Einfluss auf die Versuchsergebnisse analysiert wird, ist sein Erklärungswert für die Versuchsergebnisse gleich null. (Aus diesem Grund sind übrigens auch sogenannte „historische Kontrollen“ – ein weiteres Argument im Arsenal gegen eine Veränderung der Standardhaltung – aus wissenschaftlicher Sicht völlig wertlos.) Genauso gut kann ein Unterschied zwischen den Versuchsergebnissen zweier Wiederholungsversuche durch Faktoren verursacht worden sein, die nicht aufgelistet wurden, weil sie sich nicht objektiv messen lassen (etwa der Umgang der Tierpfleger mit den Tieren) – oder weil sie gar nicht erst in Betracht gezogen wurden (zum Beispiel das Geschlecht der Tierpfleger [11]).

Die Standardisierung von Tierversuchen ist längst Teil der wissenschaftlichen Orthodoxie und bestimmt damit maßgeblich die Forschungspraxis. Die Möglichkeit zur Standardisierung wird dabei gerne als Vorteil präklinischer Studien gegenüber klinischen Studien gesehen, weil in letzteren eine Standardisierung der Studienpopulation nicht möglich ist. Sie ist dort allerdings auch gar nicht erwünscht, denn klinische Studien haben einen entscheidenden Vorteil: sie umfassen die natürliche Variation in der klinisch relevanten Population und sind damit repräsentativ. Tierversuche unter standardisierten Laborbedingungen setzen dagegen auf künstliche Uniformität. Sie sind deshalb bestenfalls für die untersuchte Population unter den herrschenden Versuchsbedingungen repräsentativ. Ob die Ergebnisse robust sind gegenüber Variation im Phänotyp der Tiere, lässt sich anhand solcher Versuche nicht beurteilen. Es sollte deshalb nicht überraschen, dass Ergebnisse aus standardisierten Laborversuchen oft nicht reproduzierbar sind.

Reproduzierbarkeit ist primär eine Frage der externen Validität beziehungsweise der Generalisierbarkeit der Ergebnisse bezogen auf die Variation, die zwischen unabhängigen Versuchswiederholungen in verschiedenen Labors zu erwarten ist. Der Einbezug der Variation zwischen Versuchslabors in das Versuchsdesign ist somit Voraussetzung für eine Beurteilung der Reproduzierbarkeit von Ergebnissen. Nicht Standardisierung sondern Heterogenisierung der Versuchspopulation ist deshalb gefordert [12].

Der unmittelbarste Test für Reproduzierbarkeit sind Multi-Labor Studien. Anhand von publizierten Daten aus fünfzig unabhängigen präklinischen Studien zur Wirksamkeit von Hypothermie in Tiermodellen für Schlaganfall haben wir kürzlich mittels Computersimulation die Reproduzierbarkeit von Einzel-Labor-Studien und Multi-Labor-Studien miteinander verglichen. Vorläufige Ergebnisse zeigen, dass der Effekt der Hypothermie in Einzel-Labor-Studien sehr stark variierte und von negativen Effekten bis zu einer hundertprozentigen Verringerung des Infarktvolumens gegenüber unbehandelten Kontrolltieren reichte. Im Gegensatz dazu variierte der Effekt in Multi-Labor-Studien mit nur drei oder vier Labors deutlich weniger stark. Zudem ergaben weniger als 50 Prozent der Einzel-Labor-Studien eine zuverlässige Schätzung der mittleren Wirksamkeit (40 Prozent geringeres Infarktvolumen; ermittelt anhand einer Meta-Analyse über alle fünfzig Originalstudien), während dies bei Multi-Labor-Studien von gleicher Stichprobengröße bei achtzig bis neunzig Prozent der Studien der Fall war.

Solche Ergebnisse verdeutlichen, in welchem Ausmaß Multi-Labor-Studien die externe Validität und Reproduzierbarkeit von Versuchsergebnissen verbessern könnten. Sie würden damit einen wirksamen Beitrag im Sinne der 3R leisten und helfen zu vermeiden, dass Tiere und Forschungsmittel für nicht-aussagekräftige Versuche verschwendet werden [13]. Multi-Labor-Studien sind geeignet, um die real existierende Variation zwischen Versuchslabors abzubilden – und sind damit besonders für präklinische Versuche im fortgeschrittenen Stadium prädestiniert. Sie sind jedoch logistisch anspruchsvoll und für Versuche in der Grundlagenforschung eher unpraktisch. Die einfachste Lösung wären unabhängige Versuchswiederholungen, um Ergebnisse zu bestätigen, bevor sie publiziert werden. Versuchswiederholungen sind allerdings nicht sehr effizient und damit aus Sicht des Tierschutzes problematisch, da kein Tier unnötig in Tierversuchen eingesetzt werden darf. Alternativ bestehen statistische Möglichkeiten, mit denen die Ergebnisse von Einzel-Labor-Studien für die erwartete Variation zwischen Versuchslabors korrigiert werden können [14]. Diese Korrektur erfordert allerdings umfangreiche Daten, anhand derer sich diese Variation abschätzen lässt. Eine weitere Alternative ist die systematische Heterogenisierung von Versuchspopulationen im Rahmen von Einzel-Labor-Studien [15]. Bisherige Versuche, Heterogenisierung über die Variation des Alters der Tiere oder deren Haltungsbedingungen zu erzielen, erwiesen sich allerdings als nicht ausreichend [16].

Wir sollten uns also wieder vermehrt bewusst machen, wie beschränkt die Aussagekraft von Einzelstudien grundsätzlich ist – zumal wenn es sich um Tierversuche handelt, die unter höchst unnatürlichen und rigoros standardisierten Bedingungen durchgeführt werden. Unabhängige Wiederholungsversuche oder Multi-Labor-Studien sind das Mindeste, was es braucht, um die externe Validität und Reproduzierbarkeit von Versuchsergebnissen abschätzen zu können. Angesichts der herrschenden Reproduzierbarkeitskrise wäre mehr Bescheidenheit im Umgang mit neuen Versuchsergebnissen angezeigt, und die beteiligten Stakeholder – Forschungsförderer, Hochschulen, Genehmigungsbehörden und Fachzeitschriften – täten gut daran, auf Evidenz für die Reproduzierbarkeit der Ergebnisse zu pochen, statt blind darauf zu vertrauen.

Ironischerweise stehen wir damit heute wieder fast am selben Punkt, wie Robert Boyle in der Mitte des 17. Jahrhunderts, als er Reproduzierbarkeit als entscheidendes Kriterium zur Abgrenzung wissenschaftlicher Evidenz von Anekdoten – und damit letztlich zur Unterscheidung von Wissen und Glauben – vorschlug. Damals bedeutete dies, dass jede neue Beobachtung zuerst in einem unabhängigen Labor wiederholt werden musste, bevor sie als wissenschaftlich erhärtet akzeptiert wurde. Dieses Konzept scheint mir bis heute nichts von seiner Relevanz eingebüßt zu haben.



Zum Autor

Hanno Würbel ist Professor für Tierschutz an der Vetsuisse-Fakultät der Universität Bern.



Referenzen

[1] Vogt, L., Reichlin, T.S., Nathues, C., Würbel, H. 2016. Authorization of animal experiments in Switzerland is based on confidence rather than evidence of scientific rigor, PLOS Biology: 14(12): e2000598.
[2] https://web.archive.org/web/ 20170312041524/http:/www.brianwansink.com/phd-advice/the-grad-student-who-never-said-no
[3] Reichlin, T.S., Vogt, L., Würbel, H. 2016. The researchers’ view – Survey on the design, conduct, and reporting of in vivo research, PLOS ONE 11(12): e0165999.
[4] Wolfer, D.P., […], Lipp, H.P. and Würbel, H. 2004. Laboratory animal welfare: cage enrichment and mouse behaviour. Nature 432: 821-22.
[5] Würbel, H. 2001. Ideal homes? Housing effects on rodent brain and behaviour. Trends Neurosci. 24: 207-11.
[6] Gaskill, B.N. & Garner, J.P. 2017. Stressed out: providing laboratory animals with behavioral control to reduce the physiological impacts of stress. Lab Animal 46, 142-45.
[7] Martin B, Ji S, Maudsley S, Mattson MP. 2010. “Control” laboratory rodents are metabolically morbid: Why it matters. Proc. Nat. Acad. Sci. (USA): 107, 6127-33.
[8] Beura, L.K. et al. 2016 Normalizing the environment recapitulates adult human immune traits in laboratory mice. Nature 532: 512-16.
[9] Würbel, H. 2000. Behaviour and the standardisation fallacy. Nat. Genet. 26: 263.
[10] Voelkl, B., and Würbel, H. 2016. Reproducibility Crisis: Are We Ignoring Reaction Norms? Trends Pharmacol. Sci.: 37: 509-10.
[11] Sorge, R.E. et al. 2014. Olfactory exposure to males, including men, causes stress and related analgesia in rodents. Nat. Meth. 11: 629-32.
[12] Richter, S.H., Garner, J.P., Würbel, H. 2009. Environmental standardization: cure or cause of poor reproducibility in animal experiments? Nat. Meth. 6: 257-61.
[13] Würbel, H. 2017. More than 3Rs: The importance of scientific validity for harm-benefit analysis of animal research. Lab Animal 46(4): 164-66.
[14] Kafkafi, […], Würbel, H., […], S., Benjamini, Y. 2017. Addressing reproducibility in single-laboratory phenotyping experiments. Nat. Meth. 14: 462-63.
[15] Richter, […], Würbel, H. 2010. Systematic variation improves reproducibility of animal experiments. Nat. Meth. 7: 167-68.
[16] Richter, S.H. et al. 2011. Effect of heterogenization on the reproducibility of mouse behaviour: a multi-laboratory study. PLoS One 6(1): e16461.


Letzte Änderungen: 12.07.2017