Editorial

Wem nützen offene
Daten? ...

(15.08.2023) ... oder beschreiben wir das Problem so: „Ihr wichtigster Mitarbeiter sind Sie selbst in 6 Monaten, aber ihr früheres Ich antwortet nicht auf E-Mails.“
editorial_bild

Die offene Wissenschaft beinhaltet viele Aspekte: von Open-Access-Publizieren über offene Daten bis hin zu „Citizen Science“ sowie einer Reform bei der Bewertung von Forschungs­leistungen („Research Assessment Reform“). Ich möchte mich hier auf offene Daten konzentrieren – wobei Daten nicht nur Daten im engeren Sinne bedeuten, sondern auch Code und andere „Research Outputs“ wie etwa Software beinhalten kann.

Warum also soll man Daten offen publizieren?

Dafür gibt es viele Argumente. Zunächst ermöglichen offene Daten, dass die Leser einer wissenschaftlichen Publikation die Möglichkeit haben, die dort beschriebenen Ergebnisse zu reproduzieren. Ohne Daten und Code steht der Leser, aber auch der Gutachter, vor dem „inversen Problem“, aus der Publikation alleine die zugrunde liegenden Rohdaten und die Analyse rekonstruieren zu müssen. Im besten Fall sind die Daten vielleicht noch kurz zusammengefasst, etwa im berühmten „Table 1“ einer medizinischen Publikation, aber die zugrunde liegenden Rohdaten bekommt man sehr selten zu sehen. Gewisse Plausibilitäts­prüfungen sind dann zwar vielleicht noch möglich, aber die Analyse tatsächlich zu reproduzieren, ist bei immer komplizierteren analytischen Verfahren (bis hin zu Machine Learning) schlichtweg unmöglich.

Editorial

Zweitens sind offene Daten aber vielleicht auch nützlich für andere Forscher. Möglicherweise gibt es andere interessante Aspekte, die bei der Primärpublikation nicht im Vordergrund standen. Wenn die Daten verfügbar sind, muss der Forscher das Experiment oder die Studie nicht wiederholen, sondern kann auf die publizierten Daten zurückgreifen.

Genau das ist die Idee von ClinicalStudyDataRequest.com oder vivli.org. Bei diesen Plattformen kann man über verfügbare Metadaten abklären, ob ein bestimmter Datensatz aus einer klinischen Studie für die eigene Forschungsarbeit nützlich sein könnte. Anschließend muss ein Antrag gestellt werden, in dem das Forschungsvorhaben beschrieben ist, um schließlich Zugang zu den – geeignet anonymisierten – Daten zu erhalten. Dieser „Restricted Access“ ist nötig, da klinische Daten häufig „sensitive“ persönliche Informationen enthalten. Noch einen Schritt weiter geht die individuelle Patientendaten-Metaanalyse, bei der Rohdaten aus mehreren Studien zusammengeführt und gemeinsam analysiert werden.

Ein weiterer Punkt ist, dass Forschung an Hochschulen und Forschungs­einrichtungen meist durch öffentliche Gelder finanziert ist und es daher die durchaus nachvollziehbare Ansicht gibt, dass daraus entstandene Daten auch der Öffentlichkeit zur Verfügung stehen sollten. Das Kurieren und Veröffentlichen von Daten wird daher inzwischen häufig als eigenständige Forschungs­leistung angesehen, die zum Beispiel bei Forschungs­anträgen genannt werden kann. Auch daher haben viele Repositorien die Möglichkeit, einen Datensatz mit einem „Persistent Identifier“ zu versehen, etwa einer URL mit einer DOI („Digital Object Identifier“).

Aus all den genannten Gründen steigt der Druck auf den Forschenden, Daten aus einem Forschungsprojekt zu veröffentlichen. Zum Beispiel verlangt die US-amerikanische Regierung, dass ab 2026 die Daten aus der gesamten öffentlich geförderten Forschung spätestens zum Zeitpunkt der Erstpublikation veröffentlicht werden.

Allerdings klaffen hier Anspruch und Wirklichkeit noch weit auseinander. Das Teilen von Daten wird von vielen Forschern als etwas Lästiges angesehen – als noch eine zusätzliche bürokratische Hürde, die die vielgelobte Freiheit der Forschung weiter einschränkt. Einfacher ist es da doch, bei dem nötigen „Data Sharing Statement“ in einer Publikation einfach „Data are available on request“ oder noch besser „on reasonable request“ zu schreiben. Denn was „reasonable“ ist (oder nicht), entscheidet ja der korrespondierende Autor – also man selbst!

Da es aber kaum Anreize gibt, Daten bei einer Anfrage auch tatsächlich zu teilen, wird solchen Anfragen meist nicht nachgekommen. Im Rahmen einer kürzlich veröffentlichten Studie konnten die Autoren nur bei 7 Prozent von über 1.700 angefragten Publikationen Zugang zu den betreffenden Daten erhalten, ansonsten wurden die Anfragen ignoriert oder negativ beantwortet (J Clin Epidemiol, 150:33-41).

Warum ist das so? „Nach der Publikation ist vor der Publikation“ – vielleicht kann man aus dem Datensatz ja noch etwas extrahieren, was sich zu einer weiteren Publikation verwerten lässt? Warum sollte man daher die Daten mit anderen teilen? Am Ende macht noch eine andere Forschergruppe die entscheidende Entdeckung – und ich selbst, der die Daten in mühsamer Arbeit gesammelt hat, gehe leer aus. So oder ähnlich denken die meisten Forschenden leider immer noch, wohl auch beeinflusst durch den immensen Publikationsdruck, der auf ihnen lastet.

Dabei wird allerdings häufig ein wichtiger Aspekt des Teilens von Daten übersehen: Durch das Kurieren und Veröffentlichen von Daten erhöht man die Qualität und Aussagekraft der eigenen Studie, vermeidet Fehler – und stellt sicher, dass man später selber auf die Daten zurückgreifen und damit effizient arbeiten kann. Das möchte ich an einem Beispiel illustrieren:

Die Analyse einer randomisierten kontrollierten Studie zeigte einen positiven Effekt für Patienten mit chronisch obstruktiver Lungenerkrankung (COPD) und wurde 2018 prominent im angesehenen Journal of the American Medical Association (JAMA) publiziert (JAMA, 320(22):2335-43). Die Intervention war ein dreimonatiges Selbst-Management­programm durch COPD-spezialisierte Pflegekräfte; die Kontrollgruppe war normale Pflege. Die Studie ergab, dass die mittlere Anzahl der Krankenhaus­einweisungen wie auch die Besuche in der Notaufnahme in der Behandlungsgruppe signifikant niedriger war als in der Kontrollgruppe (0,72 vs. 1,40, p-Wert=0,004).

Zehn Monate später wurde der Artikel jedoch zurückgezogen. Die Autoren hatten einen Programmier­fehler in der Analyse des Datensatzes entdeckt (JAMA, 322(14):1417-8). Die Gruppen­zuordnung (Intervention beziehungsweise Kontrolle) war fälschlicherweise vertauscht worden, sodass die korrekte Schlussfolgerung aus der Studie genau umgekehrt lautet: Im Durchschnitt waren es in der Interventions­gruppe 1,40 COPD-bedingte Krankenhaus­einweisungen und Besuche in der Notaufnahme, in der Kontrollgruppe aber nur 0,72. Was zunächst wie ein positiver Behandlungseffekt erschien, verwandelte sich in ein signifikant schlechteres Ergebnis – ein wahrer Albtraum für die verantwortlichen Studienleiter! Den Fehler hatten die Autoren selber entdeckt und dann die Datenanalyse vollständig wiederholt, indem sie diesmal von zwei Statistikern unabhängig durchgeführt wurde. Dabei wurden sogar noch weitere Fehler im Code gefunden, die auch korrigiert werden mussten. Letztlich resultierte daraus eine neue Publikation (wieder in JAMA), die den zurückgezogenen Artikel ein Jahr später ersetzte (JAMA, 322(14):1371-80).

Nicht nur wegen dieser Arbeit muss man wahrlich kein Hellseher sein, um die enorme Dunkelziffer von Fehlern in wissen­schaftlichen Artikeln abzuschätzen. Sehr häufig bleiben sie unentdeckt, oder – schlimmer noch – sie werden gar nicht berichtet. Den Autoren dieser Studie gebührt daher ausdrücklich Lob dafür, dass sie den Fehler korrigiert und der Zeitschrift gemeldet haben.

Etwas verblüffend war allerdings die Erklärung der Autoren, wie es zu der Verwechslung der Gruppen kam: Die Gruppen­zugehörigkeit sei zunächst mit 1-2 codiert gewesen und wurde anschließend in eine 0-1-Variable umgewandelt. Dabei seien die beiden Studiengruppen vertauscht worden. Wieso sie nicht gleich mit einer Faktorvariable mit den aussage­kräftigen Ausprägungen „Intervention“ und „Control“ gearbeitet hatten, ist nicht wirklich ersichtlich, dann hätte das Problem bereits im Keim erstickt werden können. Der Analyst war jedenfalls nicht verblindet, genauso wenig wie die Teilnehmer und behandelnden Ärzte in der Studie. Vermutlich war die Begeisterung über einen signifikanten Unterschied so groß, dass am Ende die Prüfung vergessen ging, ob der Effekt denn auch in die richtige Richtung zeigte. Die Umcodierung von 1-2 auf 0-1 kann dafür nicht der Grund gewesen sein, da ja weder die eine noch die andere Codierung deutlich macht, wofür diese Zahlen eigentlich stehen.

Womit ich zum Punkt komme: Stellen wir uns doch einmal vor, dass der Geldgeber der Studie, das gemeinnützige Patient-Centered Outcomes Research Institute, oder auch die Zeitschrift JAMA die Veröffentlichung von Daten und Code zum Zeitpunkt der Publikation verlangt hätte. Dann hätten die Daten vernünftig aufbereitet und alle Variablen in Metadaten erklärt werden müssen, genauso natürlich auch die Gruppen­zugehörigkeit, am besten in Einklang mit den berühmten FAIR-Prinzipien. Selbstverständlich sind klinische Daten sensitiv, aber glücklicherweise gibt es diverse Anony­misierungs­techniken, um die Identifizierung der Studienteilnehmer zu verhindern und das Teilen von klinischen Daten zu ermöglichen (Nat Med, 29(2):298-301). Spätestens dann wäre der Fehler aufgefallen und korrigiert worden. Gleichzeitig hätte auch der Code geprüft und kommentiert werden müssen – und höchstwahrscheinlich wären die anderen Fehler auch bereits entdeckt worden.

Die Veröffentlichung von Daten und Code hat also einen nicht zu unterschätzenden Nebeneffekt: Die Qualität und Glaubwürdigkeit der eigenen Studienresultate erhöht sich. Wer will schon riskieren, dass ein Leser Fehler in der Analyse entdeckt? Das ist auch für die Autoren selber von Vorteil, wenn sie weitere Analysen mit dem Datensatz durchführen wollen: Ohne eine saubere Dokumentation und Kommentierung von Daten und Code versteht man ein paar Monate später häufig selbst nicht mehr, was genau in den Daten beschrieben ist und wie man genau auf die publizierten Ergebnisse gekommen ist, überspitzt gesagt antwortet ihr früheres Ich nicht auf E-Mails!

Das war letztlich auch bei dieser Studie der Fall. Erst bei einer Sekundär­analyse des Datensatzes sind die Autoren selber auf die unzureichend dokumentierte Gruppen­zugehörigkeit gestoßen – und haben so den fatalen Fehler entdeckt, denn sie hatten ja Zugang zu Daten und Code (Contemp Clin Trials Commun, 23:100838).

JAMA verlangte übrigens das oben erwähnte „Data Sharing Statement“ auch bei dieser Publikation. Darin findet sich der übliche Satz „Data summaries will be shared upon request“, gleichzeitig aber auch die vielsagende Bemerkung, dass die Verfügbarkeit der Rohdaten einer aufwändigen Anonymisierung bedürfe: „Removal of all identifiers, to protect the identities of participants, will require significant time and costs.“

Da fragt man sich dann doch, ob die nachträgliche Prüfung des gesamten Codes durch zwei unabhängige Statistiker nicht noch viel mehr Ressourcen verschlungen hat. Ganz zu schweigen von dem erheblichen Mehraufwand für die Autoren, die Zeitschrift – und schließlich auch für die betroffene Wissenschafts­gemeinschaft.

Zur Person
Leonhard Held ist Professor für Biostatistik, Leiter des Center for Reproducible Science und Open-Science-Delegierter der Universität Zürich.

Bild: Tim Teebken (Bearb.:U. Sillmann)


Weitere Forscher-Essays aus dem Laborjournal-Archiv


- Die Unfähigkeit, sich zu freuen (Essay von Ernst Peter Fischer, Konstanz)

Nicht nur anlässlich der raschen Verfügbarkeit von Corona-Impfstoffen zeigt sich: Wir freuen uns nicht über neues Wissen, sondern fürchten lieber dessen Risiken.

- „Ehre, wem Ehre gebührt“ – Ist der „Dr. h. c.“ noch zeitgemäß? (Essay von Christoph Plieth, Kiel)

Ehrenpromotionen sind heikel, manchmal gar gefährlich – und binden unnötig viele Ressourcen. Warum schaffen wir sie nicht einfach ab?

- Bildung und Freiheit – Universitas semper reformanda (Essay von Josef Pfeilschifter und Helmut Wicht, Frankfurt am Main)

Aufgabe der Universitäten ist es, die Räume bereitzustellen, in denen sich unsere Freiheit vernünftig entfalten kann. Davon sind sie heute weit entfernt. Wir entwerfen daher eine Utopie.

 

 



Letzte Änderungen: 15.08.2023