Editorial

Zur Diskussion gestellt

Von Matthias Wjst, Süddeutschland


(15.07.2022) Stapelweise Preprints, High-Impact-Zeitschriften mit nicht reproduzierbarem Inhalt, neue Rekorde an Retractions, ... – was ist eigentlich gerade los? Ein Plädoyer für eine neue Diskussionskultur sowie Post-Publication-Peer-Review

Formell sind wissenschaftliche Originalarbeiten eher langweilig: Einleitung, Methode, Ergebnisse und Diskussion. Wobei, Diskussion? Eher nicht, es ist mehr ein Monolog, den der oder die Autorin über die Ergebnisse führt. Eine echte Auseinandersetzung wäre womöglich sowieso kontraproduktiv. Man kann schließlich nicht schreiben, dass die Studie mittlerweile nicht mehr besonders originell ist. Oder dass sich alle früheren Arbeiten geirrt haben.

bild

Sicher, seit dem berühmt-berüchtigten Ioannidis-Paper wissen wir nun, dass die meisten Arbeiten in der Biomedizin nicht reproduziert werden können – aber wir haben nun mal diesen leidigen künstlichen Wettbewerb um Impact-Faktoren. Natürlich müsste man in einer echten Diskussion schreiben, dass die Experimente nicht in der beschriebenen Reihenfolge durchgeführt wurden und einiges ausgelassen wurde. Oder dass ursprünglich eine völlig andere Datenauswertung geplant war. Doch Fehler und Widersprüche überspringt man besser in der Hoffnung, dass die Reviewer es nicht merken – und der gewünschte Impact herausspringt.

Früher fanden sich oft noch Diskussionen in der Rubrik Letter/Correspondence. Bei vielen Zeitschriften ist diese inzwischen aber nur noch eine Kategorie, um Mini-Originalarbeiten unterzubringen. Andere Zeitschriften haben dagegen hohe Mauern errichtet, um die üblichen Besserwisser fernzuhalten – oder lehnen Zuschriften zu Artikeln mangels Neuigkeitswert gleich ganz ab.

Wenigstens in Arbeitsgruppen wird noch diskutiert. Dummerweise fördern aber Groupthink und formale Abhängigkeiten nicht unbedingt die kontroverse Auseinandersetzung. Oder glaubt wirklich jemand, dass man sich auf einer befristeten #IchBinHanna-Stelle wegen inhaltlicher Differenzen mit dem Lehrstuhlinhaber anlegt? Es ist immer wieder verblüffend festzustellen, welche Meinungen ehemalige Gruppenmitglieder auch noch Jahre nach dem Abtritt ihres früheren Chefs vertreten.

Damit bleibt noch die Diskussion auf Kongressen. Allerdings bestehen auch da Zweifel, wenn nach Vorträgen lediglich ausgewiesene Selbstdarsteller aufstehen – mit Einfällen, die gerade mal drei Minuten alt sind. Außerdem sind die Vorträge ja oft nur noch PR für längst eingereichte Paper, es wird also keinesfalls über Konzepte diskutiert. Seltene Ausnahme sind die Pro-Con-Sessions, auch wenn sich hier eher rhetorisches Geschick statt tatsächliche Überzeugungskraft durchsetzt.

Offenbar findet die einzige und letzte relevante Diskussion somit leider im Peer-Review von Manuskripten vor der Veröffentlichung statt. Es ist die Kontrollstation, um „dem unendlichen Irrtum eine Grenze zu setzen” – um es mit Brechts Galilei zu sagen. Es ist aber auch die letzte Chance für Autoren, missverständliche Aussagen und Fehler zu bereinigen – oder zu erklären, warum Einwände der Gutachter nicht zutreffen. Meist geschieht dies in Form der „Point-by-Point-Response”, bei der die Autoren auf jeden einzelnen Gutachter-Kommentar eingehen müssen. Einige wenige Zeitschriften veröffentlichen solche Diskussionen online, die allermeisten allerdings nicht.

Mit dem Aufkommen von Preprints – zuerst auf arXiv, dann auf bioRxiv und nicht zuletzt auf medRxiv kurz vor der Corona-Pandemie – wird nun auch noch der Peer-Review vor der Veröffentlichung umgangen. Damit fällt die letzte Bastion der Plausibilitätskontrolle, alles geht direkt an die Nachrichtenagenturen. Sicher, es ist ein Vorteil, wenn es keine Zeitverzögerung mehr zwischen Abfassung und Veröffentlichung gibt. Erste Vergleiche zwischen ursprünglichem Preprint und „veröffentlichter” Endversion zeigen auch kaum Unterschiede. Aber wie viele Preprints werden überhaupt noch später „veröffentlicht” oder im Peer-Review-Prozess abgefangen? Ist das Zauberwort nun PPPR – Post-Publication-Peer-Review –, auch wenn es diesen nicht mal ansatzweise flächendeckend gibt?

Der Beginn des modernen Peer-Review wird meist Henry Oldenburg zugeschrieben, der 1665 in London die Philosophical Transactions herausgab und zwei Mitglieder der Royal Society um seine Meinung bat. Das Verfahren war nicht unbedingt beliebt und stand von Anfang an unter Zensurverdacht, denn jedes Manuskript musste den politischen, religiösen und moralischen Vorstellungen der Zeit entsprechen.

Der österreichische Wissenschaftsforscher Gerhard Fröhlich dazu: „Begonnen hat es etwa im 17. Jahrhundert. Da gab‘s viele experimentelle Shows und viele Scharlatane, und auch viele, die nur behauptet haben: ‚Ich hab doch was ganz Uriges entdeckt!‘ Und daher brauchte man Zeugen, und diese Zeugen waren Peers. Aber Peers waren keine Gleichrangigen, keine Gleichaltrigen, sondern das waren die höchsten Adeligen. Das heißt, ein Mann – musste natürlich ein Mann sein! – von hohem sozialen Stand hat bezeugt: Das hat tatsächlich geblitzt! Oder die gelbe und die grüne Flüssigkeit zusammengemischt ergaben tatsächlich weiß. Und dann war das Experiment bestätigt.“

Als der Peer-Review im 18. Jahrhundert dann Standardverfahren in den Akademien wurde und die Peers gleichrangig waren, kam es dann auch immer öfter zu Ideenklau – mehr aber noch zu Ideenabwehr. Nach Meinung von Experten war „das Peer-Review-Verfahren nie fester Bestandteil der Forschungspraxis selber gewesen [...], sondern ist von außen als Zensur- oder Steuerungsmöglichkeit an das System herangetragen worden” (Bodo Rödel, 2020, „Peer Review: Entstehen – Verfahren – Kritik“).

Albert Einstein lernte zum Beispiel erst in der US-Emigration, dass es so etwas wie den Peer-Review gab, als er zusammen mit Nathan Rosen ein Manuskript an Physical Review schickte. Nachdem er in dem Antwortbrief einen zehnseitigen Kommentar fand, reagierte er mit der berühmt gewordenen Antwort: „We (Mr. Rosen and I) had sent you our manuscript for publication and had not authorised you to show it to specialists before it is printed. I see no reason to address the – in any case erroneous – comments of your anonymous expert. On the basis of this incident I prefer to publish the paper elsewhere.“

Die Anekdote zeigt sehr schön die ganze Problematik der Peer-Reviews auf, wenn Autoren in einer anderen Liga spielen als die Reviewer. Auf der anderen Seite war und ist es auch für Experten extrem schwierig, Irrtümer aufzuklären. Viel leichter ist es, sie in die Welt zu setzen – „A lie gets halfway around the world before the truth has a chance to get its pants on”, so Churchill einmal.

Aber dient nicht wenigstens der Impact-Faktor einer Zeitschrift als Garantie für die Richtigkeit ihrer Artikel? Die Mehrheit der Artikel in Nature, Cell und Science hat keine höhere Zitierrate, als es der Fetischfaktor der Zeitschriften vermuten lässt. In meiner Disziplin lagen alle Glamour-Journal-Artikel daneben, berühmtestes Beispiel in Nature ist der Immunglobulin-E-Memory-Effekt von Wasser.

Warum aber sorgen nicht mal die Edelblätter, da sie ja vermeintlich die besten Gutachter beauftragen können, für zuverlässige Qualität? Stefan Hornbostel, der Gründungsdirektor des Instituts für Forschungsinformation und Qualitätssicherung, sagt dazu: „Die Gutachtertätigkeit ist nicht gleich verteilt auf alle Wissenschaftler, sondern ganz im Gegenteil, sie ist extrem schief verteilt”. Es geht in vielen Fächern also überdies um die Interpretationsmacht – weshalb die Gutachten für ein und dieselbe Arbeit auch allzu oft nur bedingt übereinstimmen. Ist der Peer-Review vor Veröffentlichung daher vielleicht doch kontraproduktiver als allgemein angenommen?

Zumal der Peer-Review vor Veröffentlichung auch leider nur selten Betrug erkennt. Wobei dies bis heute auch nicht explizit zu den Anforderungen an einen Review gehört. Aber überhaupt: Fälschungsskandale in der Wissenschaft. Dass Genauigkeit und Ehrlichkeit vorausgesetzt werden, ist womöglich eine der fatalsten Annahmen unseres aktuellen Wissenschaftssystems unter dem „Publish-or-Perish”-Druck. Aktuell haben wir in Deutschland generell über 800.000 registrierte Betrugsfälle pro Jahr. Und bei den über 100.000 Artikeln aus deutschen Institutionen im Jahr soll praktisch kein Betrugsfall dabei sein?

Seit 2019 fördert die Deutsche Forschungsgemeinschaft (DFG) nun das „Summa-cum-Fraude”-Projekt als Gegenmaßnahme gegen wissenschaftliches Fehlverhalten. Solche Projekte sind dringend notwendig, denn wie kann es möglich sein, dass sowohl The Lancet als auch das New England Journal of Medicine während der Corona-Pandemie auf den Betrüger Sapan Desai hereingefallen sind? Wie kann es sein, dass Wissenschaftsbetrüger wie Yoshitaka Fujii, Joachim Boldt oder Hironobu Ueshima unbehelligt hunderte von Artikeln veröffentlichen konnten? Womöglich liegt es mit an dem, was Carl Bergstrom und Jevin West wie folgt ausdrückten: „The scientific enterprise faces a [...] set of problems – from hype and hyperbole to publication bias and citation misdirection, predatory publishing, and filter bubbles” (PNAS 118 (15): e1912444117).

Preprints sind gekommen, um zu bleiben. Sie kamen mehr oder weniger durch die Hintertür und hebeln nun ein jahrhundertealtes System der Qualitätskontrolle aus. Um nun aber nicht komplett den Überblick zu verlieren, brauchen wir so etwas wie Post-Publication-Peer-Review (PPPR). Nicht zuletzt deshalb kamen die US-National Institutes of Health (NIH), die die National Library of Medicine finanzieren, schon 2013 auf die Idee, wissenschaftliche Kommentare auf PubMed als PubMed Commons zuzulassen. Nur fünf Jahre später stellte das NIH die Kommentarfunktion jedoch wieder ein. Gerade mal 7.500 Kommentare waren in dieser Zeit abgegeben worden, während die private Website PubPeer bereits 54.000 Kommentare eingesammelt hatte. Ein ähnliches Bild boten die digitalen Wissenschafts-Plattformen. Bei Public Library of Science (PLoS) hielten sich die Kommentare mit rund 15.000 auch in Grenzen, wobei die Hälfte davon Anmerkungen der Herausgeber waren. Gähnende Leere zeigte sich auch in den Kommentarspalten bei BioMed Cen­tral (BMC) und den Preprint-Archiven. Wer will auch schon gerne öffentlich kontroverse Diskussionen führen?

Ein Rätsel ist dann aber, warum die Zahlen bei der offenen Debattier-Plattform PubPeer so in die Höhe geschossen sind. Bei PubMed Commons musste man sich mit Namen registrieren, bei PubPeer kann man das zwar ebenfalls, darf aber auch anonym bleiben. PubPeer – der „Online-Journal-Club”, wie sie sich selbst bezeichnen – gehört einer in Kalifornien registrierten Non-Profit-Stiftung. Der Serverstandort unterliegt damit US-Recht, in dem freie Meinungsäußerung eine höhere Rolle spielt als in Deutschland. Lange war nicht klar, wer überhaupt hinter der Website steckt. Erst drei Jahre nach der Gründung 2012 hat sich das Team geoutet: Brandon Stell und Boris Barbour, zwei Neurowissenschaftler am Centre National de la Recherche Scientifique (CNRS) in Paris, die Brüder Richard und George Smith, Letzterer ein Webentwickler, sowie Gabor Brasnjo, ein IP-Anwalt in San Francisco.

Die Besonderheit von PubPeer: taxonomische Pseudonyme und einfache Spielregeln. Das Redaktionsteam hat dabei ähnlich wie die Administratoren der Wikipedia den Grundsatz, dass Aussagen entweder direkt evident sind, wie etwa bei Bildmanipulationen, oder aber durch Links auf andere Webseiten, Originalliteratur oder Zeitschriften hinreichend belegt werden können. Insiderwissen aus einem Labor wird damit also beispielsweise nicht akzeptiert. Von Kommentatoren angesprochene Autoren haben etwas mehr Freiheiten, sie können zum Beispiel unveröffentlichte Daten nachliefern. Allerdings haben sie – genauso wie deutsche Behörden – kaum eine Handhabe, um gegen missliebige Inhalte oder Verleumdungen vorzugehen.

PubPeer wird anonym moderiert, die Zahl der aktuellen Moderatoren ist nicht bekannt. Gegen die Moderation kann kein Einspruch erhoben werden, auch wenn sie manchmal etwas willkürlich ist. Beiträge von Usern mit mehreren bereits akzeptierten Einträgen werden umgehend freigeschaltet, die Bearbeitungszeit bei neuen Usern liegt normalerweise unter 24 Stunden. User können ihre Beiträge nicht mehr ändern, sobald ihrem Beitrag ein weiterer folgt.

Kritische Äußerungen sind weitaus häufiger als Zustimmung. Das PubPeer-Team ist davon wenig überrascht: „We consider this unsurprising and even inevitable, since most authors have been forced by the system to put the most positive spin possible on their results.”

PubPeer ist mit diesen Prinzipien die größte wissenschaftliche Kommentar-Datenbank mit Einträgen zu 123.000 Artikeln geworden. Offizielle Statistiken gibt es nicht, eine externe Auswertung 2020 ordnete fünf Usern extrem hohe Aktivität zu, zwei davon sind namentlich bekannte Frauen. 86 Prozent der Kommentare sind anonym, mehr als 15.000 User schrieben nur einen Eintrag, 8.000 weitere zwei bis vier Einträge. Life-Science-Artikel sind mit 51 Prozent am häufigsten vertreten, gefolgt von Medizin mit 28 Prozent. Angaben über die Zahl der täglichen Zugriffe auf PubPeer gibt es nicht.

Überproportional viele Einträge gibt es zu Bildmanipulationen. Das war durch die relativ einfache Überprüfbarkeit zu erwarten. Schon im bekanntesten deutschen Betrugsfall „Herrmann/Brach/Mertelsmann“ spürte die DFG-Kommission die Datenmanipulationen vorrangig durch Analyse der Abbildungen auf.

Zwischendurch finden sich auf PubPeer immer wieder auch andere interessante Diskussionen – etwa darüber, dass ein kommerzielles Geldokumentationssystem undokumentiert Artefakte einfügt oder dass eine Zeitschrift über Jahre Abbildungen „gepimpt” hat, weil ihr die Markierungen und Skalen der Autoren nicht gefallen haben.

Manche Kommentare sind lustig, etwa wenn Autoren vergessen, ihre Textanmerkungen herauszunehmen. Manchmal sind es allerdings auch bestürzende Kommentare, etwa wenn chinesische Ärzte quasi unter Tränen zugeben, dass ihre Publikation, die zur Weiterbeschäftigung zwingend notwendig war, ein Schreibbüro aka Paper-Mill erfunden hat. Oder aber wenn Emeriti im Keller nach alten Laborbüchern suchen, weil sie selbst über die eigenen Abbildungen entsetzt sind.

Die Zahl der Retractions aufgrund von PubPeer-Einträgen ist nicht bekannt, dürfte aber im unteren einstelligen Prozentbereich liegen. Nimmt man die Corrections dazu, sind es sicher mehr als 10 Prozent. Leider ignorieren viele Autoren die Info-Mails von PubPeer, die sie nach Einträgen zu deren Veröffentlichungen automatisch erhalten.

Ein PubPeer-Kommentar ist allerdings noch lange kein Review eines Artikels. Auch wenn die meisten Verlage im Rahmen von Open Science in Zukunft verzichtbar sein sollten, so brauchen wir doch weiterhin Instanzen für einen qualifizierten und fairen Review-Prozess – egal ob vor oder nach der Veröffentlichung. PubPeer ist dafür ungeeignet und in der aktuellen Form allenfalls das gerissene Flatterband an der Absturzkante. Auch mit einem verwechselten Western Blot kann ein Artikel natürlich neu, relevant und interessant sein.

Zudem ist die weitere Entwicklung von PubPeer derzeit nicht absehbar, zu sehr hängt alles noch an einzelnen Personen und einer unsicheren Finanzierung. Drohungen auf Löschung und Prozesse auf Herausgabe der IP-Adressen von Kommentatoren hat PubPeer allerdings bisher unbeschadet überstanden – unter anderem auch die Klage eines US-Professors, dem wegen negativer PubPeer-Einträge eine Anstellung mit 350.000 US-Dollar Jahresgehalt entgangen ist.

Denunziation, Cyber-Mobbing und Online-Trolling haben natürlich einen üblen Beigeschmack, allerdings werden die klassischen juristischen Kriterien für Denunziation nicht erfüllt. Schließlich sind keine Strafanzeigen im Spiel, meist auch keine niedrigen Beweggründe – und ein persönlicher Vorteil für einen anonymen Autor ist auch nur selten auszumachen. Dabei sollte man auch nicht vergessen, dass 80 bis 90 Prozent der aktuellen Review-Prozesse anonym sind. Auch ist Wikipedia zum größten Teil über anonyme Beiträge aufgebaut worden. Die Wikimedia-Foundation hat im Übrigen auch unzählige Gerichtsprozesse hinter sich – und sitzt, Zufall oder nicht, ebenfalls in Kalifornien.

Eines der innovativsten PPPR-Modelle hat indes die Online-Zeitschrift eLife. Vom Howard Hughes Medical Institute, der Max-Planck-Gesellschaft und dem Wellcome Trust gegründet, begutachtet eLife nur noch Manuskripte, die bereits auf einem Preprint-Server liegen. Die Verlagssoftware ist auf Github frei verfügbar, die Kosten liegen aktuell bei 2.500 US-Dollar pro Artikel.

Die Akzeptanzrate von eLife liegt zwar auch nur bei 15 Prozent – was aber nicht tragisch ist, da ja jeder weiterhin das abgelehnte Originalmanuskript auf dem Preprint-Server einsehen kann. Für Ende 2022 ist dazu ein aktives Vorgehen geplant, sodass mittels Software die neuesten Preprints in einem Gebiet per KI lokalisiert und triagiert werden sowie ein „Kurator” ernannt wird, der die Autoren zu einer Submission motivieren soll.

eLifes aktuelle Webpräsentation von Artikeln ist hervorragend, man kann zwischen Review und Original springen, die Literatur ist verlinkt, Pageviews und Downloads sind direkt einsehbar, Annotation und Kommentare allerdings nur mit ORCID-ID willkommen. Generell könnte jedoch solch ein Review-on-Demand von Preprints zu einer neuen Dienstleistung werden, die die Forschungszentren und Universitäten am besten selbst in die Hand nehmen, statt sich weiterhin von oligopolen Verlagen ausnehmen zu lassen.

Zum Schluss noch eine Bonusinformation für alle, die bis hierhin gelesen haben. Dass Cut & Paste von Textblöcken aus anderen Artikeln irgendwann auffällt, ist seit Vroniplag und den Rücktritten gewisser Politikerinnen und Politiker bekannt. Viele Institute setzen nun auch Plagscan oder ähnliche Software routinemäßig ein. Wir selbst arbeiten an einer Bildersuchmaschine, ähnlich TinEye oder Google Images, die Bilder in Millionen von früheren wissenschaftlichen Artikeln findet, Kameratypen auswertet und Photoshop-Änderungen markiert. Seek & Blastn extrahiert schon seit einiger Zeit Primersequenzen aus PDFs und blastet sie gegen das Genom, ob sie amplifizieren. ICLAC identifiziert fehlannotierte Zelllinien. Überdies gibt es diverse Statistikmodule, die Tabellen aus PDFs extrahieren und unwahrscheinliche Zahlenreihen entdecken können, etwa den Last Digit Checker oder Statcheck. Genauso wie es Datenbanken gibt, die Autoren mit exzessiven Selbstzitaten identifizieren – und demnächst auch semantische Netzwerke, die die Korrektheit von Literaturreferenzen scannen.

Ich vermute daher, dass sich in naher Zukunft die PubPeer-Einträge mindestens verdoppeln werden. Schlampige Arbeit und Wissenschaftsbetrug wird in zunehmendem Maß entdeckt, verfolgt und auch geahndet. Schon im letzten Jahr gab es einen neuen Rekord mit 3.200 Retractions, die meisten Artikel waren zuvor auf PubPeer markiert. Vermutlich wäre auch der Medizinnobelpreis des Jahres 2019 nicht genau so vergeben worden, wenn sich das Komitee vorher die PubPeer-Einträge zu einem der Preisträger angesehen hätte. Unter diesem Gesichtspunkt lohnt es sich also, die eigenen Artikel vor dem Abschicken dreimal anzusehen. Und wenn früher einmal Abbildungen „optimiert” wurden, empfiehlt es sich – Stichwort Schweizer Steuer-CD – über Korrekturen nachzudenken.

Aber auch für die Wissenschaftsadministration ergeben sich daraus Konsequenzen. Wir brauchen dringend Fortbildungsmodule. Nicht etwa zur Wissensvermittlung über Research Integrity – das war nach einer früheren Studie sogar kontraproduktiv –, sondern stattdessen praktische Kurse mit Fallbeispielen, Analysen und Rollenspielen, um jeder Wissenschaftlerin und jedem Wissenschaftler die Konsequenzen von Fehlverhalten klarzumachen. Statt immer höhere Etats an PR-Abteilungen zu geben, wären vielmehr Research Integrity Offices wichtiger, die den Output der Forscher screenen – ähnlich wie dies auch Zeitungsredaktionen tun. Schließlich sind Drittmittel erst dann über Publikationen „abgerechnet”, wenn auch stimmt, was drinsteht. Und die Folgekosten nicht-reproduzierbarer Forschung sind immens. Wir können uns diese gigantische Verschwendung in der Biomedizin einfach nicht mehr leisten.

Viel gewonnen wäre auch, wenn die auf Masse optimierte Publikationsflut auf relevante Artikel kanalisiert würde. Denn langsam aber sicher droht mit der Preprint-Flut ein Kollaps des Systems.

Zwar nimmt mit Preprint-Servern, Open Science und zunehmendem PPPR die Macht der Verlage immer weiter ab, allerdings geben diese das lukrative Geschäft nicht kampflos auf. Vielmehr versuchen sie mit allen Mitteln, die Kontrolle zu behalten: Zwangsauthentifizierung, personalisierte PDFs, User Tracking und Prozesse gegen Sci-Hub, ResearchGate und Co. Zugleich haben wir es mehr denn je selbst in der Hand, wo wir unsere Manuskripte platzieren. Es ist die einmalige Gelegenheit für die Wissenschaftsgemeinde, wieder die Kontrolle zu bekommen – auch wenn noch völlig unklar ist, wie das gehen könnte und nach welchen Spielregeln.

Das müssen wir nun diskutieren.



Zum Autor

bild
Matthias Wjst ist Arbeitsgruppenleiter an einem süddeutschen Forschungsinstitut und applizierter Professor an der benachbarten Universität. Seit einigen Jahren interessiert er sich auch für Research Integrity – und als begeisterter Fotograf vor allem für die Abbildungen..