Editorial

Schubladen auf, Daten raus!

(13.4.15) Im Windschatten von Open Access und Open Peer Review folgt eine weitere "Open"-Bewegung: Open Data. Denn ein Paper ohne Zugang zu den Rohdaten ist nicht viel wert.
editorial_bild

Wenn das Peer Review nicht mehr hinter verschlossenen Türen stattfindet, könnte das die Rettung für ein reichlich kaputtes System sein – so die Schlussfolgerung unseres Autors Leonid Schneider in seiner Titelgeschichte im aktuellen Laborjournal-Heft. Open Peer Review und Open Access sind in der Tat zwei wichtige Wege zu mehr Transparenz und Reproduzierbarkeit in der Wissenschaft. Dicht auf den Fersen folgt aber noch ein anderer "Open"-Schlachtruf: Open Data, offene Daten, sollen ebenfalls zum Standard werden.

Man könnte es für eine Selbstverständlichkeit halten: Autoren, die ihre Forschungsergebnisse vorstellen, sollten nicht nur die Auswertung präsentieren, sondern auch die zugrunde liegenden Rohdaten frei zugänglich machen. Wie sonst können Kollegen nicht nur die Resultate verstehen, sondern die Arbeiten selbst Schritt für Schritt nachvollziehen, sie auf potenzielle Fehler überprüfen, oder vielleicht alternative Interpretationsmöglichkeiten finden?

Editorial

Das klassische Research Paper ist ein lebendes Fossil

Nun ist das Format des klassischen Research Papers aber ein lebendes Fossil aus vor-digitalen Zeiten, auch wenn es mittlerweile online verbreitet wird. Es gab früher einfach keine Möglichkeit, große Datensätze auf ein paar Seiten bedrucktem Papier unterzubringen. Frühere Generationen Studien-lesender Forscher mussten sich daher mit "repräsentativen" Abbildungen und summarischen Auswertungen begnügen.

Diese Zeiten sind aber vorbei.

Digitale Journals bieten immerhin die Möglichkeit, ganze Datensätze im Supplemental Material auszubreiten. Es gibt also keinen Grund mehr, Rohdaten in der Schublade zu lassen. Ideal ist das zwar nicht, denn die Supplemental Materials sind ein schwarzes Loch, in das oft nicht mal die Reviewer hineingucken. Mangels einheitlicher Formate sind die "ergänzenden Materialien" auch schwer mit Text- und Datamining-Methoden zu durchsuchen. Besser machen es Autoren, die ihre Daten in speziellen Repositorien hinterlegen. Diese sind komfortabel durchsuchbar, bieten einheitliche Datenformate und die Autoren können den Datensatz im Paper bequem durch eine ID-Nummer verlinken. Es gibt schon eine Reihe spezialisierter Datenbanken für verschiedene Datentypen. Repositorien sind längst nicht mehr auf Protein- und DNA-Daten beschränkt (z.B. bietet Treebase eine Heimat für phylogenetische Stammbäume oder GBIF für Biodiversitäts-Daten). Und Datensätze, die in keine standardisierte Schublade passen, sind etwa bei DRYAD gut aufgehoben.

Experimente mit neuen Publikationsformen

Die Grenze zwischen "Research Paper" und "Datenbank" verwischt in Zukunft vielleicht ganz, wenn man mal den Mut hat, über das abgeschlossene Paper-Format hinauszudenken. Die Taxonomen-Publikation ZooKEYS beispielsweise experimentiert mit neuen Publikationsformen ("semantically enriched papers"), bei denen maschinenlesbare Querverweise zu Datensätzen in die Originalpublikation eingebunden werden.

Auch das Genomik-Journal GigaScience verabschiedet sich zunehmend von klassischen Formaten und versteht sich stattdessen ausdrücklich als "Big Data Journal". Es bietet insbesondere einen integrierten Genome Browser für die Publikation großer Sequenzdatensätze.

Aber Open Data sollte eben nicht nur für Genomiker zum Standard werden, die dem Gedanken des Daten-Teilens schon immer aufgeschlossen waren, sondern in allen Disziplinen der Wissenschaft. Traditionelle Journals springen durchaus auf den Zug auf und formulieren "open data policies", in denen festgelegt wird, inwiefern die zu den Publikationen gehörenden Datensätze zugänglich gemacht werden müssen.

Nicht nur Begeisterung

Aber die Open-Data-Bewegung stößt nicht nur auf Begeisterung. Es grummelt ein wenig hier und da. Vorbehalte gibt es unter anderem deshalb, weil ein Datensatz oft mehr als ein Paper hergeben soll. Wenn beispielsweise ein Zoologe sich die Mühe macht, in vielen Stunden mühevoller Fleißarbeit hunderte Insekten zu sammeln und ihre Flügel zu digitalisieren, so ergeben sich daraus vielleicht zahlreiche Fragestellungen und Projekte für mehrere Artikel. Publiziert er nun den ganzen Datensatz mit der ersten Arbeit, so könnten sich Konkurrenten die Daten schnappen, selbst darüber veröffentlichen und so die Früchte des fleißigen Sammlers ernten – der klassische "Scoop".

Denn "Credit" für die Forscher gibt es derzeit leider nur für ihre Veröffentlichungen, und nicht für das mühsame Erstellen der Datensätze.

Knifflig wird der Anspruch auf Offenlegung aber auch bei klinischen Studien am Menschen. Hier gilt es abzuwägen: Die De-Anonymisierung von Studienteilnehmern durch Querverbindungen zu anderen Datensätzen ist eine vielleicht unterschätzte Gefahr.

Aber solche Sonderfälle sollten nicht darüber hinweg täuschen: Artikel zu publizieren, ohne die zugrunde liegenden Daten öffentlich zu machen, sollte grundsätzlich nicht mehr akzeptabel sein. Leichter wird die Arbeit der Autoren dadurch nicht. Aber hoffentlich reproduzierbarer.

 

Hans Zauner


Illustration: @nicotombo / fotolia



Letzte Änderungen: 05.06.2015