„Bis heute gab es keine Richtschnur“

(16.07.2019) Viren lassen sich oft nur über ihre Sequenz-Information packen. Deshalb braucht es Standards für die Virus­genomik – Thomas Rattei hat solche Richtlinien mitformuliert.
editorial_bild

Editorial

Laborjournal: Herr Rattei, in Ihrem Richt­linien-Paper schlagen Sie und die anderen Autoren unter anderem drei verschiedene Einstufungen vor, um die Qualität einer ermittelten Virussequenz anzugeben: Als vollständige „Finished Genomes“ sollen ausschließlich lückenlos vorhandene Sequenzen bekanntgegeben werden. Von „High Quality Draft Genomes“ sprechen Sie, wenn das Genom mindestens zu neunzig Prozent vorliegt oder komplett ist, aber noch Unsicherheiten aufweist – etwa in repetitiven Regionen. Alles unterhalb von neunzig Prozent sollte hingegen nur in der Kategorie „Genome Fragments“ veröffentlicht werden. Ist es schwierig, das Einhalten solcher Kategorien in der Community durchzusetzen?

Rattei: Die Autoren repräsentieren ja die Mehrzahl der zumindest in diesem Bereich aktiven Gruppen. Daher bin ich mir sicher, dass diese Einstufung in die Qualitätsklassen auch übernommen wird. Alle haben ja ein Interesse daran, dass wir den Begriffs-Wirrwarr auflösen, der in der Vergangenheit existierte. Das wird auch die Arbeit der Reviewer erleichtern. Wenn in Zukunft jemand ein Genom als High Quality Draft publizieren will, das zu weniger als fünfzig Prozent vorliegt, wird sich der Reviewer auf unser Paper berufen können. Bisher ging das nicht, weil es einfach keine Richtschnur dafür gab.

Editorial

Aus welchen Einrichtungen kommen denn die Autoren?

Rattei: Unter den Autoren sind wichtige Vertreter der größten Datenbanken. Seit es die Genomik gibt, haben wir ja ein weltweit gut funktionierendes Netzwerk, das sich zu einem Nukleotidsequenz-Datenbank­konsortium zusammengeschlossen hat, nämlich zur International Nucleotide Sequence Database Collaboration (INSDC). Die INSDC ist quasi der Dachverband dreier großer Nukleotid-Datenbanken – nämlich der DDBJ aus Japan, dem NCBI aus den USA und dem EMBL-EBI in Europa. Aus all diesen Einrichtungen waren Forscher als Autoren an unseren Guidelines beteiligt. Wir haben hier also die wichtigen Player mit im Boot.

Die Nukleotid-Datenbanken legen ja auch technische Vorgaben fest, in welcher Form Sequenzen zu übermitteln sind. Momentan sind wir in einer Phase, in der diese Virenstandards vom INSDC umgesetzt und entsprechende Erweiterungen in den Datenbanken eingeführt werden. Folglich wird man einen Virom-Datensatz künftig gar nicht an eine dieser Datenbanken übermitteln können, wenn die hier vorgeschlagenen Angaben nicht gemacht sind. Und falls genomische Information nicht in einem dieser drei großen Datenbankzentren öffentlich zur Verfügung steht, wird man das entsprechende Paper ohnehin nur schwer publizieren können.

Bei der Kategorisierung der Qualität einer Sequenz erwarte ich aber gar keine Schwierigkeiten. Eine ganz andere Problematik ist die Frage der Metadaten, die zum Übermitteln von Sequenzen erhoben werden sollten. Das ist ein Zusatzaufwand für die Forscher, den man natürlich rechtfertigen muss. Deswegen thematisieren wir auch diesen Punkt in unserem Paper.

Editorial

Zu den Metadaten gibt es in Ihrer Arbeit eine Übersicht über Angaben, die unbedingt enthalten sein müssen. Zum Beispiel die Herkunft der Sequenz oder auch die Software, mit der die Sequenzen assembliert und Voraussagen zum Genom getroffen wurden. Was funktioniert derzeit bereits gut beim Handling dieser Metadaten, und wo muss die Community noch nachbessern, um Ihre Standards zu erfüllen?

Rattei: Recht gut funktioniert die Angabe leicht beschreibbarer Metadaten. Zum Beispiel die Herkunft des Wirtsorganismus und dessen Kultivierungsbedingungen – sofern die denn bekannt sind. Auch ökolo­gische Bedingungen und geografische Koordinaten kann man leicht hinterlegen. Sehr viel schwieriger ist aber die genaue Beschreibung des Wirtsorga­nismus. Ich denke zum Beispiel an große Forschungsprojekte wie das humane Mikrobiom. Wenn ich lediglich weiß, dass ein hinterlegtes Virom aus dem Menschen stammt, ist das nicht sehr spannend. Eigentlich möchte ich ja wissen: Wie alt war dieser Mensch? Litt er unter einer Krankheit? Wie hat er sich ernährt? Nur dann kann ich wirklich auch ökolo­gischen oder medizinischen Fragestellungen auf den Grund gehen.

Genau diese Daten sind aber nicht immer leicht teilbar, gerade wenn sie in besonderen Kombinationen vorliegen. In der medizinischen Forschung kommen wir dann natürlich schnell in die Problematik des Datenschutzes. Schließlich kann der Genotyp des Wirts in Kombination mit einem bestimmten Krank­heitsbild unter Umständen schon ausreichen, um einzelne Individuen identifizierbar zu machen. Doch auch, wenn es nicht um den Menschen geht, ist die Beschreibung der Lebensbedingungen und Habita-Eeigenschaften nicht immer trivial. Das lässt sich zum Teil nur schwer in wenigen Kategorien auf ein Formular pressen.

Dann bräuchte man eigentlich nicht nur Standards, was mitgeteilt wird, sondern auch, wie diese Metadaten-Strukturen aussehen müssen. Denn andernfalls sind verschiedene Datenbanken ja gar nicht miteinander kompatibel.

Rattei: Für zelluläre Mikroorganismen haben wir solche Metadaten schon. Das müsste man eben, soweit möglich, auch für Virome mit angeben. Klar, das ist eine Heraus­forderung – zumal die Datenübergabe ja zeitsparend möglich sein soll. Denn falls es zu kompliziert wird, wird das niemand machen. Die Handhabung dieser komplexeren Metadaten sehe ich als Baustelle, die man jetzt angehen muss. Viele der speziell für Viren im Paper aufgelisteten Punkte betreffen aber hauptsächlich die weitere Computer-Verarbeitung. Die verwendete Software in den Metadaten anzugeben, das machen die Bioinformatiker schon jetzt sehr gut. Und diese Informationen lassen sich auch relativ leicht in älteren Datensätzen nachtragen, weil die Angaben im Methodenteil der Publikationen hinterlegt sind.

Wie sieht es denn aus mit Standards zur taxonomischen Klassifikation von Viren?

Rattei: Da sind wir jetzt bei einem ganz anderen Aspekt. Wenn es nur um die Frage geht, wie gut wir eine DNA-Sequenz rekonstruiert haben, können wir das mit wenigen Zahlen beschreiben. Doch bei einer neuen Gattung oder einer neuen Spezies gibt es so viele Argumente und zum Teil konkurrierende Konzepte – mit dem Resultat, dass es ja eigentlich bis heute noch ein offener Punkt ist, was genau nun eine Bakterienspezies ist. Bei den Viren ist das genauso. Wir haben in unserer Arbeit zwar einen Abschnitt zur Taxonomie, der hat aber mehr einen Vorschlags­charakter.

Die Fragen stellte Mario Rembold


Das ausführliche Interview mit Thomas Rattei können Sie im Laborjournal-Heft 6-2019 nachlesen.