Editorial

Die Tücken des wissenschaftlichen Online-Datings

In vergangenen Jahrhunderten reichten Biologen meist ein Mikroskop, ein Blatt Papier und ein Stift, um aufregende neue Beobachtungen festzuhalten und für die Nachwelt zu konservieren. Heute müssen moderne Lebenswissenschaftler immer häufiger Internetdienste samt der dort hinterlegten Programme zur Auswertung und Speicherung ihrer Ergebnisse hinzuziehen. Doch wie zuverlässig arbeiten diese virtuellen Analysehelfer und Ablageflächen, fragte sich ein Tübinger Forscherteam und erstellte eine Studie dazu.

editorial_bild

(20. Oktober 2011) Für ihre Untersuchung durchforsteten Bioinformatiker um Gunnar Rätsch vom Friedrich-Miescher-Laboratorium der Max Planck Gesellschaft in Tübingen (FML) die Nucleic Acids Research Web Server Issues von 2003 bis 2009. In dieses Verzeichnis werden jährlich wissenschaftliche Internetdienste eingetragen, die bestimmte Kriterien erfüllen. Dazu gehören etwa das Vorhandensein einer Kontaktadresse oder die Möglichkeit einen Probelauf des Programms mit Beispieldaten durchzuführen. Zusammen mit zwei wissenschaftlichen Hilfskräften testete der Doktorand und Erstautor der Studie, Sebastian Schultheiss, 927 der angegebenen Webserver darauf, ob sie den festgelegten Kriterien noch genügten, dazu ihre Erreichbarkeit und Funktionalität (PLoS ONE 2011, 6(9): e24914). Reine Datenbanken wurden von der Analyse ausgeschlossen.

 

Die Tübinger Wissenschaftler fanden 72 Prozent der untersuchten Dienste unter den ursprünglich angegebenen Adressen wieder. Allerdings konnten sie nur 45 Prozent davon auf ihre Funktionalität testen, bei 33 Prozent der Dienste fehlten die dafür notwendigen Beispieldaten. „Häufig werden Webdienste von Doktoranden erstellt“, sagt Schultheiss. „Verlassen sie das Labor, übernimmt meist jemand anders den Service oder er verwaist.“ Verschwindet ein vorher im Netz zugängliches Analysewerkzeug, sind damit erstellte Daten nicht länger reproduzierbar – sie sind somit nicht mehr nachvollziehbar oder überprüfbar. Wird der Service verändert, sodass eingegebene Daten plötzlich anders ausgewertet werden als zuvor, gibt es ebenfalls Probleme: Die alten Daten sind nicht mit den neuerstellten vergleichbar.
 
Um den Benutzern diese Ärgernisse zu ersparen, haben Rätsch und Schultheiss für die Ersteller und Betreiber von frei zugänglichen Internetdiensten 10 Regeln aufgestellt. Diese sind sowohl in der PLoS ONE-Studie, als auch in PLoS Computational Biology veröffentlicht (PLoS Comput Biol 2011, 7(5): e1001126). „Man sollte die Erstellung eines Internetdienstes immer gut planen“, rät Schultheiss. Dazu gehört, dass man sich Gedanken über die Bedürfnisse der Nutzergruppe macht. Auch wer künftig für den Unterhalt und die Wartung des Services zuständig sein wird, sollte vorab geklärt werden. Ein weiterer Tipp ist, die Nutzer immer über Änderungen des Services zu informieren und auch ältere Versionen der Analysewerkzeuge bereit zu halten.

Zuverlässig funktionierende wissenschaftliche Internet-Services kommen nicht nur den Anwendern entgegen: „Solche Tools werden in der Regel häufiger genutzt und damit öfter zitiert“, sagt Rätsch. „Das kommt natürlich auch den Entwicklern zugute.“ Als Fazit ihrer Erhebung zur Zuverlässigkeit von wissenschaftlichen Webdiensten richten Rätsch und Schultheiss derzeit einen zusätzlichen Service im Netz ein: Unter bioweb.me können Betreiber von Internetdiensten die Webadressen ihrer Angebote unkompliziert aktualisieren.

Die Zahl der Internetdienste für die Auswertung biomedizinischer Daten nimmt laut Rätsch stetig zu. Die Palette der angebotenen Werkzeuge wird dabei immer größer: Sie reicht von mathematischen Auswertungshilfen über DNA- und Protein-Sequenzvergleiche bis hin zu Strukturvorhersagen von Proteinen oder RNA-Molekülen. Im Bioinformatics Links Directory werden von Experten empfohlene öffentlich zugängliche molekularbiologische Quellen, Datenbanken und Auswertungswerkzeuge aufgelistet. „Diese Seite ist eine gute Hilfe bei der Suche nach einem zuverlässigen Webservice“, so Rätsch.

Der Tübinger Bioinformatiker entwickelt mit seiner Gruppe mathematische Modelle auf der Grundlage des Maschinellen Lernens. Seine Computerprogramme erkennen Gesetzmäßigkeiten in Datensätzen, aus denen sie Regeln ableiten und so Vorhersagen treffen können. Rätsch und seine Mitarbeiter entwerfen überwiegend Programme, die Genfunktionen vorhersagen und wie sich diese bei Variationen, etwa im Genom, verändern. Die Früchte ihrer Arbeit stellen sie häufig als frei verfügbaren Webservice für andere Forscher ins Netz. Um dieser Aufgabe so gut wie möglich gerecht zu werden, beschäftigte sich Schultheiss mit dem Thema – und kam so auf die Idee, die eingangs erwähnte Studie durchzuführen.


Schultheiss Tipp: Wer ganz sichergehen will, dass per Webservice erstellte Daten auch später noch reproduzierbar sind, sollte Sicherungskopien der verwendeten Programme speichern. Das Gleiche gilt auch für die eingesetzten Parameter.


Melanie Estrella
Bild: dvc/photocase.com



Letzte Änderungen: 04.03.2013