Editorial

20 Jahre Laborjournal

Digitale Steinzeit

Von Björn Brembs, Regensburg


(11.07.2014) Blockierte Literatur, wie es die „Open Access“-Bewegung kritisiert, ist nur die Spitze des Eisbergs. Vielmehr mangelt es der Wissenschaft generell an digitaler Infrastruktur, die ihren „Output“ auf effiziente Weise dokumentieren und nutzbar machen würde. Ein Stillstand, der bald gefährlich werden könnte.

„Open Access“ (OA) ist zurzeit in aller Munde. Zum einen sprießen immer mehr Abonnement-unabhängige Journale im Blätterwald der mittlerweile über 30.000 begutachteten Zeitschriften (der sogenannte „goldene“ Weg zu OA). Zum anderen verlangen immer mehr Forschungsförderer weltweit, dass die Empfänger der Fördermittel ihre Publikationen in institutionellen Repositorien zur Verfügung stellen (der „grüne“ Weg zu OA), falls sie nicht Gold-OA publiziert werden. In Deutschland wurde genau dafür das Urheberrecht um das Zweitveröffentlichungsrecht erweitert. In Baden-Württemberg wollen die Gesetzgeber diese Möglichkeit nun auch auf Universitätsmitarbeiter ausweiten. Doch der Deutsche Hochschulverband, sonst verlässliche Interessensvertretung der Wissenschaftler, schlägt sich in einem spektakulären Stellungswechsel auf die Seite der Konzerne und bereitet eine Klage gegen das Gesetz in Baden-Württemberg und damit gegen eine Entwicklung unserer digitalen Infrastruktur vor.

Man ist versucht, mit Shakespeare auszurufen: viel Lärm um nichts! Denn wenngleich sich die Zugänglichkeit der Wissenschaft mitnichten in den letzten 15 Jahren der OA-Bewegung verbessert hat – eher im Gegenteil! –, so entwickelte sich doch die gesamte digitale Infrastruktur an öffentlichen Forschungseinrichtungen in den letzten 20 Jahren kaum weiter. Dadurch hat sich mittlerweile eine solche Vielzahl an Unzulänglichkeiten angesammelt, die das Problem des Literatur-Zugangs in der täglichen Forschungsarbeit, je nach Feld, zum Teil völlig in den Hintergrund gedrängt hat. Dieser Stillstand hat mittlerweile gravierende Domino-Effekte, die nicht nur die Bewahrung unserer Forschungsergebnisse, sondern auch den Fortbestand öffentlicher Forschung insgesamt gefährden.

Je nach Fachrichtung fallen die Früchte wissenschaftlicher Arbeit in eine oder mehrere der folgenden drei Kategorien: wissenschaftlicher Quellcode, digitale Daten oder textbasierte Inhalte.

Die fehlende Zugänglichkeit der Literatur ist dabei nur eines von vielen Problemen unserer textbasierten Ergebnisse:

Editorial

Editorial

  • Je nach Fachbereich, müssen vier oder mehr Suchmaschinen verwendet werden, um eine ausreichende Abdeckung der Literatur zu gewährleisten (in meinem Fall der Neurobiologie: Google Scholar, PubMed, Scopus und Web of Science).
  • Obwohl Hyperlinks bereits 1968 von der Stanford University zum ersten Mal vorgestellt wurden, haben sie auch nach fast 50 Jahren in unserer Literatur noch immer keinen Einzug gehalten. Oder haben Sie schon einmal eine genaue Beschreibung der experimentellen Vorgänge bekommen, wenn Sie auf „the experiments were performed as previously described“ geklickt haben?
  • Wir schicken den Journalen immer noch Bilder mit Kurven, Graphen und Diagrammen, auch wenn die Verlage doch nur unsere Daten und einige Befehle zur Erstellung der Diagramme bräuchten. Nebenbei würde das den Gutachtern und später den Lesern erlauben, andere Aspekte der Daten in Augenschein zu nehmen, als die von den Autoren ausgewählten.
  • Wir müssen immer noch nach jeder Ablehnung unsere Artikel zum Teil radikal umschreiben, weil jedes Journal unsere Texte gerne in einer anderen Form hätte.
  • Erst jetzt beginnen einige wenige Journale mit einer Technologie, die jeder Student sich schon in den 1990ern in seine Webseiten baute: Zähler für die Anzahl an Zugriffen. Immerhin ist diese Technologie nur etwas über 20 Jahre alt, und nicht fast 50 wie die Hyperlinks.


  • Die Verlage blockieren aktiv und aus reinem Gewinninteresse den Zugang für moderne Forschungsmethoden wie Content-Mining.
  • Obwohl Online-Händler wie Amazon schon seit über einem Jahrzehnt Folgeprodukte anbieten, die mit bereits gekauften Produkten zusammenhängen, gibt es eine vergleichbare Technologie für wissenschaftliche Artikel nur in sehr begrenztem Rahmen. Es gibt nicht ein einziges digitales Werkzeug, das es einem Wissenschaftler erleichtert, die neu publizierte Literatur individuell und vom Nutzerverhalten lernend zu filtern, zu sortieren und zu entdecken, obwohl diese Technologien bereits seit vielen Jahren auch von Wissenschaftlern ausführlich in nicht-wissenschaftlichen Bereichen genutzt werden.
  • Es gibt keine wissenschaftlichen Bewertungsmöglichkeiten. Der vielzitierte „Impact-Faktor“ ist ungefähr so wissenschaftlich wie Wünschelrutengehen oder Pendeln. Die Daten der letzten 20 Jahre legen sogar nahe, dass Würfeln geeigneter ist, einen guten Artikel in einer Auswahl zu finden, als diese verhandelbare, nicht-reproduzierbare und mathematisch falsch berechnete Zahl.
  • Wir haben keine Möglichkeiten, die neuen Technologien der sozialen Medien auf unsere Literatur anzuwenden. Zwar wird langsam eine Disambiguierung der Autoren über ORCID entwickelt – doch bevor diese Implementierung auf breiter Front etabliert ist, werden noch viele Jahre vergehen.

Diese zehn Beispiele sind natürlich nur eine kleine Auswahl aus der stetig wachsenden Anzahl an Funktionalitäten, die wir heutzutage von digitalen Objekten als selbstverständlich erwarten, die sich jedoch nicht in unserer Literatur wiederfinden. Da fällt die Tatsache, dass Verlage mit ihren Blockaden mittlerweile ja das genaue Gegenteil von dem tun, was ihr englischer Name (Publishers) andeutet, eigentlich kaum noch ins Gewicht: es ließe sich ja auch argumentieren, dass die öffentliche Zugänglichkeit von so offensichtlich antiquiertem Material ja nur ein denkbar schlechtes Licht auf die Wissenschaftlergemeinde werfen kann. Schließlich würde unsere Literatur nur unwesentlich an Funktionalität verlieren, wenn wir sie in Stein meißelten, mit den Digitalkameras in unseren Mobiltelefonen ablichteten und die Bilder dann ins Netz stellten.

Und als ob es nicht schon schlimm genug um die Literatur stünde, sieht die Situation bei wissenschaftlichem Quellcode oder wissenschaftlichen Daten kaum besser aus. Nur ungefähr 25% aller wissenschaftlicher Daten sind überhaupt zugänglich, und nur ein kleiner Teil davon wiederum in öffentlichen Datenbanken. Die verbleibenden 75% sterben mit ihren Forschern, wenn sie überhaupt so lange überleben. Die wenigen Prozent, die in Datenbanken zugänglich sind (in der biomedizinischen Forschung vor allem Sequenzdaten), stehen unter der ständigen Bedrohung des finanziellen Kollapses dieser Datenbanken. Die meisten der gut 1.400 biomedizinisch relevanten Datenbanken werden mit Projektmitteln von Förderperiode zu Förderperiode betrieben. Selbst die von großen Regierungen geförderten Datenbanken sind nicht immun gegen Finanzprobleme, wie der „Government Shutdown“ der US-Regierung vor kurzem nur allzu deutlich machte. Wenige Tage länger politisches Chaos, und ein Großteil der weltweiten biomedizinischen Forschung hätte zum Erliegen kommen können. Kurzum, seit mehr als 30 Jahren generieren wir immer mehr und in immer mehr wissenschaftlichen Feldern digitale Daten von unschätzbarem Wert, doch es gibt keine nachhaltige Infrastruktur, die diese Daten global, langfristig und katastrophensicher bewahrt. Das ist, als würden mit der Fertigstellung eines Hausbaus die Grundrisse und Baupläne aktiv vernichtet.

Für wissenschaftlichen Quellcode wurden erst in diesem Jahr die ersten zaghaften Schritte hin zu einer digitalen Infrastruktur unternommen. Das CERN in Genf, FigShare (Macmillan/Nature Publishing Group) und das Mozilla Science Lab haben sich mit GitHub und CrossRef koordiniert und können nun Digital Object Identifiers (DOIs) auch für Quellcode vergeben und ihn damit zitierbar machen. Abgesehen von Initiativen wie diesen sowie einigen weltweit verstreuten Projekten (beispielsweise das DFG-finanzierte SciForge) gibt es nur fachspezifische Insellösungen, in denen Kollegen direkt untereinander Skripte und Code austauschen und zugänglich machen.

Diese Problematik ist natürlich von ähnlicher Tragweite wie die Problematiken der Literatur oder der Daten. Wissenschaftlicher Code bedient nicht nur unsere Experimente vom Drosophila-Flugsimulator über den fMRT-Brainscanner zum LHC, sondern wertet die gesammelten Daten auch aus und lässt Computermodelle vom Atom zum Gehirn oder dem Klima laufen. Es gibt zurzeit keine institutionelle Möglichkeit, diese Arbeit nachhaltig zu bewahren, standardisiert zugänglich und damit nachnutzbar zu machen. Gerade bei Projekten von öffentlichem Interesse, wie Klimamodellen, ist das eine fatale und unhaltbare Situation.

Die mangelnde Funktionalität (und in einigen Fällen die Inexistenz) unserer digitalen Infrastruktur ist jedoch nur einer von drei Hauptaspekten, unter denen wir unsere Infrastruktur betrachten und entwickeln müssen.

Neben der Funktionalität ist die Anreizstruktur eine wesentliche Komponente unserer Infrastruktur. Durch die enorme Überproduktion an Hochschulabsolventen, verglichen mit akademischen Forscherstellen, entsteht eine krankhafte Konkurrenzsituation. Es ist heutzutage nicht mehr ausreichend, gute Forschung zu betreiben und verlässliche Daten zu sammeln. Nein, man muss diese Daten auch noch möglichst weit oben in einer Journalhierarchie unterbringen, die jeglicher empirischen Grundlage entbehrt. Das bedeutet, dass es heute wichtiger ist, wo man publiziert, als was man publiziert. Wenn man dann auch noch die empirischen Daten in Betracht zieht, nach denen die methodische Qualität der Arbeiten mit der Höhe in der Journalhierarchie sinkt statt steigt, verwundert es nicht, dass mit dem Renommee des Journals nicht nur der Anteil der später zurückgezogenen Artikel zunimmt, sondern auch die Zahl der dreistesten Betrüger, die dort veröffentlichen. (Siehe hierzu auch Alexanders Lerchls Essay in diesem Heft: „Wie das System Forschungsbetrug begünstigt“)

Sensationsgier und niedrige Qualitätsansprüche in den Top-Journalen, gepaart mit der Verzweiflung, eine Publikation in einem der entscheidenden Journale unterbringen zu müssen, ist das perfekte Rezept, um die am wenigsten zuverlässige Wissenschaft in den am meisten beachteten Journalen unterzubringen. Diesem System haben wir nicht nur Jan-Hendrik Schön, Woo-Suk Whang oder Diderik Stapel zu verdanken, sondern auch die Titelgeschichte „How Science Goes Wrong“ des Economist oder den Titel „Pfusch in der Wissenschaft“ von Ranga Yogeshwars WDR-Sendung „Quarks & Co.“.

Eventuell geht auf das Konto dieses Systems auch der exponentielle Anstieg in den Retraktionen insgesamt. Exponentielle Verläufe sind in der Natur häufig auf Rückkopplungsmechanismen zurück zu führen. Wenn nun seit etwa einer Wissenschaftlergeneration die etablierten Forscher dem Nachwuchs beibringen, wie man unfertige oder schlecht designte Experimente an Top-Journale verkauft, um eine Professur zu ergattern, anstatt solide, gut kontrollierte und reproduzierbare Arbeit zu leisten, kann man sich gut vorstellen, wie es zu einem exponentiellen Anstieg der Retraktionen kommen kann. Nebenbei bemerkt, erreicht diese Exponentialfunktion bereits 2046 einen Wert von 100% an zurückgezogenen Artikeln – momentan stehen wir bei lediglich 0,02%. Wenn bereits 0,02% an zurückgezogenen Artikeln zu Berichten in den Medien über die mangelnde Verlässlichkeit öffentlich geförderter Wissenschaft führen, erkennt man, dass dieser exponentielle Verlauf bereits weit vor 2046 ein Ende haben wird. Es liegt an uns, ob wir den Verlauf der Kurve kontrollieren, oder ob letztlich der zu Recht empörte Steuerzahler sich entschließt, dass die Forschungsmilliarden verschwendet und anderweitig besser zu verwenden sind.

Ein dritter wesentlicher Aspekt unserer Infrastruktur sind natürlich deren Kosten. Da für Quellcode keine und nur für einen kleinen Teil der Daten institutionelle Infrastruktur existiert, müssen wir uns bei dieser Diskussion auf die Kosten der Literatur beschränken. Hierbei haben die Analysten von Outsell, Inc. berechnet, dass weltweit jährlich etwa 10 Mrd. US-$ für Abonnements wissenschaftlicher Literatur ausgegeben werden. Bei circa 2 Millionen publizierten Artikeln pro Jahr bedeutet das, dass jeder Abonnement-pflichtige Artikel rund 5.000 US-$ kostet. Das sind deutlich mehr als selbst die teuersten Gold-OA-Gebühren, die zwischen zwei- und dreitausend US-$ liegen und mehr als das zehnfache der durchschnittlichen Gold-OA-Gebühren. Folglich erscheint selbst eine aus anderen Gründen wenig erstrebenswerte Umstellung auf Gold-OA zumindest finanziell sehr lukrativ.

Wissenschaftliche Artikel zu einem Preis von 5.000 US-$ das Stück können sich natürlich nur wenige Institutionen leisten, die zumeist in den reichsten Nationen angesiedelt sind. Entwicklungs- und Schwellenländer nutzen daher seit nun über 15 Jahren ein alternatives System, das die gleichen grundlegenden Leistungen erbringt wie die traditionellen, begutachteten Zeitschriften, aber zu deutlich geringeren Kosten und vollständig öffentlich zugänglich. Die Scientific Electronic Library Online, oder SciELO, wurde in Brasilien mit Unterstützung der NIH/PubMed entwickelt, versorgt mittlerweile ganz Südamerika und beginnt sich auch auf andere Kontinente auszuweiten. Das neueste Mitglied von SciELO ist Südafrika. Die durchschnittlichen Kosten pro Artikel in SciELO betragen 90 US-$. Mit anderen Worten: würde die Wissenschaftswelt ab morgen kollektiv in SciELO veröffentlichen, wären nicht nur alle Zugangsprobleme behoben, wir hätten überdies 9,8 Mrd US-$ jährlich gespart, ohne auch nur im Kleinsten irgendwelche Funktionalitäten verloren zu haben. Und dieses Geld könnte man beispielsweise wiederum direkt in die Entwicklung von digitaler Infrastruktur einsetzen könnte, die einem 21. Jahrhundert würdig ist.

Sollten all die Leben, die der freie Zugang zu biomedizinischer Forschung potentiell retten könnte, zusammen mit den fast 10 Mrd. US-$ jedes Jahr an eingesparten Mitteln nicht Anreiz genug für die Entwicklung einer modernen Informations-Infrastruktur sein? Wenn nicht, dann hat die Wissenschaftlergemeinde die Katastrophe, die gerade auf sie zurollt, wirklich verdient.

Björn Brembs ist Professor für Neurogenetik am Institut für Zoologie der Universität Regensburg und erklärter Befürworter von Open Access und Open Science.


Letzte Änderungen: 11.07.2014