Editorial

„Bis heute gab es keine Richtschnur“ – Standards für die Virusgenomik

Interview: Mario Rembold


Viren lassen sich häufig nur über ihre Sequenzinformation packen. Umso wichtiger sind Standards, die Viren- und Genomforscher einhalten, wenn sie virale Sequenzen bekanntgeben oder hinterlegen. Der Wiener Bioinformatiker Thomas Rattei hat mit einer Reihe von Kollegen kürzlich derartige Standards formuliert. Wir sprachen mit ihm.

In der Metagenomik wurden sie lange vernachlässigt: Viren. Gerade in der Ökologie ist derzeit beispielsweise noch wenig bekannt über das Wechselspiel zwischen Bakterien und Bakteriophagen und deren Bedeutung für Ökosysteme. Oder über die Rolle von Viren im menschlichen Mikrobiom. Doch sowohl Ökologen als auch Mediziner interessieren sich zunehmend für die Virome in ihren Proben – also die Gesamtheit aller viralen Nukleotidsequenzen. Wie aber sollten virale Genome dokumentiert und publiziert werden? Welche Standards sind sinnvoll, damit es keinen unkontrollierten Wildwuchs an Sequenzdaten gibt, wenn sich immer mehr Forscher auf die Suche nach viraler DNA und RNA machen?

Hierzu haben Dutzende Forscher aus aller Welt kürzlich Vorschläge für entsprechende Guidelines veröffentlicht (Nature Biotechnology 37(1): 29-37). Darin formulieren sie Minimalanforderungen, die in Datensätzen viraler Sequenzen dokumentiert sein sollten, damit die Ergebnisse publizierbar sind. Auch fordern sie, Bezeichnungen zur Qualität dieser Daten einheitlich zu verwenden.

Ein Mitverfasser der Arbeit ist Thomas Rattei, Leiter der Abteilung Computational Systems Biology (CUBE) an der Universität Wien. Der Bioinformatiker sieht die Aufgabe seines Arbeitsfeldes vor allem in der Entwicklung neuer Analysemethoden und eben der Etablierung von Datenstandards. Denn der Bioinformatiker von heute sei kein Dienstleister, der bloß Daten durch den Rechner jagt. „Die reine Anwendung von Computerprogrammen und auch einfache Programmieraufgaben gehören heute eher zu den üblichen Lab Skills“, meint Rattei.

Sind gemeinsame Standards nun ein notwendiges Übel, oder setzen sie sich ohnehin schon in der Szene durch? Im Gespräch erklärt uns Rattei, welche Punkte er für besonders wichtig hält und wo er künftige Herausforderungen sieht.

hg_19_06_02a
Foto: CDC

Laborjournal: Herr Rattei, gibt es einen grundsätzlichen Unterschied zwischen klassischer Metagenomik und der Suche speziell nach viralen Sequenzen im Probenmaterial?

Thomas Rattei » Die eine Sache ist sozusagen die technische Herangehensweise. Bei einer Viromanalyse wird man in der Probe zunächst bestimmte Partikelgrößen anreichern, einfach um die Sequenzierkapazität optimal auszunutzen. Und dann macht es natürlich einen Unterschied, ob Sie DNA- oder RNA-Viren untersuchen wollen. Der andere Punkt ist die Datenaufbereitung. Zwar gibt es schon seit rund fünfzehn Jahren Metagenomik im heutigen Sinne, aber da bekam man lange Zeit einen Datensalat verschiedener kurzer Sequenzen. Erst seit etwa fünf Jahren sind wir in der Lage, diese Bruchstücke wieder zu einzelnen Salatblättern zusammenzupuzzeln – um im Bild zu bleiben. Das liegt weniger an einem Durchbruch in der Bioinformatik, sondern vielmehr an der sehr guten und schnellen Entwicklung bei den Sequenziertechniken. Dieses Zusammenpuzzeln vieler kurzer Sequenzen, das Assemblieren, ist aber bei Viren viel komplizierter als in zellulären Organismen.

Was macht die neuen Sequenziertechniken besser? Sind es die Leselängen?

Rattei » Noch nicht. Es wird noch immer vor allem mit kurzen Leselängen unterhalb von fünfhundert Basen gearbeitet. Die Assembly-Software sucht dann nach Überlappungen, um gesamte Genome zu rekonstruieren. Das gelingt aber nur dann zuverlässig, wenn Sie beim Sequenzieren auch eine gewisse Tiefe erreichen, eine hohe Coverage.

hg_19_06_02b
Thomas Rattei will die Virusgenomik reproduzierbarer machen. Foto: samsung.at

So dass dieselben Sequenzen mehrfach erfasst sind?

Rattei » Ja. Denn die Überlappungen müssen völlig eindeutig sein, um sie zu assemblieren. Gerade bei Viren kann das aber sehr kompliziert werden, weil es verschiedene Virenspezies mit ähnlichen Sequenzabschnitten gibt. Die können wir dann nicht assemblieren, sodass sie uns später fehlen. Ein Weg wäre, lange Reads in die Auswertung miteinzubeziehen. Das ist in der Metagenomik aber noch Zukunftsmusik.

Man liest doch schon seit einigen Jahren von Sequenziermethoden für große Leselängen.

Rattei » Ja, von PacBio und Nanopore gibt es Sequenziermethoden mit Long Reads. Allerdings ist das für die Metagenomik noch zu teuer. Zudem sind diese Methoden auch weniger genau. Zum Vergleich: Bei standardmäßig eingesetzten Illumina-Sequenzierungen sind Fehlerraten von einem Prozent üblich. Für längere Reads müssen Sie bei PacBio aber mit fünfzehn Prozent Fehlern rechnen, und bei der Nanopore-Sequenzierung geht das rauf auf bis zu fünfzig Prozent. Da brauchen wir dann zusätzliche bioinformatische Verfahren, um diese sehr verrauschte Information auswerten zu können.

In dem einleitend genannten Guideline-Paper fordern Sie und die anderen Autoren Standards für die Virusgenomik. So schlagen Sie drei verschiedene Einstufungen vor, um die Qualität einer ermittelten Virussequenz anzugeben: Als vollständige „Finished­ Genomes“ sollen ausschließlich lückenlos vorhandene Sequenzen bekanntgegeben werden. Von „High Quality Draft Genomes“ sprechen Sie, wenn das ­Genom­ mindestens zu neunzig Prozent vorliegt oder komplett ist, aber noch Unsicherheiten aufweist – etwa in repetitiven Regionen. Alles unterhalb von neunzig Prozent sollte hingegen nur in der Kategorie ­„Genome Fragments“ veröffentlicht werden. Ist es schwierig, das Einhalten solcher Kategorien in der Community durchzusetzen?

Rattei » Die Autoren repräsentieren ja die Mehrzahl der zumindest in diesem Bereich aktiven Gruppen. Daher bin ich mir sicher, dass diese Einstufung in die Qualitätsklassen auch übernommen wird. Alle haben ja ein Interesse daran, dass wir den Begriffs-Wirrwarr auflösen, der in der Vergangenheit existierte. Das wird auch die Arbeit der Reviewer erleichtern. Wenn in Zukunft jemand ein Genom als High Quality Draft publizieren will, das zu weniger als fünfzig Prozent vorliegt, wird sich der Reviewer auf unser Paper berufen können. Bisher ging das nicht, weil es einfach keine Richtschnur dafür gab.

Aus welchen Einrichtungen kommen denn die Autoren?

Rattei » Unter den Autoren sind wichtige Vertreter der größten Datenbanken. Seit es die Genomik gibt, haben wir ja ein weltweit gut funktionierendes Netzwerk, das sich zu einem Nukleotidsequenz-Datenbankkonsortium zusammengeschlossen hat, nämlich zur International Nucleotide Sequence Database Collaboration (INSDC; www.insdc.org). Die INSDC ist quasi der Dachverband dreier großer Nukleotid-Datenbanken – nämlich der DDBJ aus Japan, dem NCBI aus den USA und dem EMBL-EBI in Europa. Aus all diesen Einrichtungen waren Forscher als Autoren an unseren Guidelines beteiligt. Wir haben hier also die wichtigen Player mit im Boot. Die Nukleotid-Datenbanken legen ja auch technische Vorgaben fest, in welcher Form Sequenzen zu übermitteln sind. Momentan sind wir in einer Phase, in der diese Virenstandards vom INSDC umgesetzt und entsprechende Erweiterungen in den Datenbanken eingeführt werden. Folglich wird man einen Virom-Datensatz künftig gar nicht an eine dieser Datenbanken übermitteln können, wenn die hier vorgeschlagenen Angaben nicht gemacht sind. Und falls genomische Information nicht in einem dieser drei großen Datenbankzentren öffentlich zur Verfügung steht, wird man das entsprechende Paper ohnehin nur schwer publizieren können.

Bei der Kategorisierung der Qualität einer Sequenz erwarte ich aber gar keine Schwierigkeiten. Eine ganz andere Problematik ist die Frage der Metadaten, die zum Übermitteln von Sequenzen erhoben werden sollten. Das ist ein Zusatzaufwand für die Forscher, den man natürlich rechtfertigen muss. Deswegen thematisieren wir auch diesen Punkt in unserem Paper.

Zu den Metadaten gibt es in Ihrer Arbeit eine Übersicht über Angaben, die unbedingt enthalten sein müssen. Zum Beispiel die Herkunft der Sequenz oder auch die Software, mit der die Sequenzen assembliert und Voraussagen zum Genom getroffen wurden. Was funktioniert derzeit bereits gut beim Handling dieser Metadaten, und wo muss die Community noch nachbessern, um Ihre Standards zu erfüllen?

Rattei » Recht gut funktioniert die Angabe leicht beschreibbarer Metadaten. Zum Beispiel die Herkunft des Wirtsorganismus und dessen Kultivierungsbedingungen – sofern die denn bekannt sind. Auch ökologische Bedingungen und geografische Koordinaten kann man leicht hinterlegen. Sehr viel schwieriger ist aber die genaue Beschreibung des Wirtsorganismus. Ich denke zum Beispiel an große Forschungsprojekte wie das humane Mikrobiom. Wenn ich lediglich weiß, dass ein hinterlegtes Virom aus dem Menschen stammt, ist das nicht sehr spannend. Eigentlich möchte ich ja wissen: Wie alt war dieser Mensch? Litt er unter einer Krankheit? Wie hat er sich ernährt? Nur dann kann ich wirklich auch ökologischen oder medizinischen Fragestellungen auf den Grund gehen.

Genau diese Daten sind aber nicht immer leicht teilbar, gerade wenn sie in besonderen Kombinationen vorliegen. In der medizinischen Forschung kommen wir dann natürlich schnell in die Problematik des Datenschutzes. Schließlich kann der Genotyp des Wirts in Kombination mit einem bestimmten Krankheitsbild unter Umständen schon ausreichen, um einzelne Individuen identifizierbar zu machen. Doch auch, wenn es nicht um den Menschen geht, ist die Beschreibung der Lebensbedingungen und Habitateigenschaften nicht immer trivial. Das lässt sich zum Teil nur schwer in wenigen Kategorien auf ein Formular pressen.

Dann bräuchte man eigentlich nicht nur Standards, was mitgeteilt wird, sondern auch, wie diese Metadaten-Strukturen aussehen müssen. Denn andernfalls sind verschiedene Datenbanken ja gar nicht miteinander kompatibel.

Rattei » Für zelluläre Mikroorganismen haben wir solche Metadaten schon. Das müsste man eben, soweit möglich, auch für Virome mit angeben. Klar, das ist eine Herausforderung – zumal die Datenübergabe ja zeitsparend möglich sein soll. Denn falls es zu kompliziert wird, wird das niemand machen. Die Handhabung dieser komplexeren Metadaten sehe ich als Baustelle, die man jetzt angehen muss. Viele der speziell für Viren im Paper aufgelisteten Punkte betreffen aber hauptsächlich die weitere Computerverarbeitung. Die verwendete Software in den Metadaten anzugeben, das machen die Bioinformatiker schon jetzt sehr gut. Und diese Informationen lassen sich auch relativ leicht in älteren Datensätzen nachtragen, weil die Angaben im Methodenteil der Publikationen hinterlegt sind.

Demnach sind also viele Vorschläge Ihrer Richtlinien aus der ohnehin schon gängigen Praxis abgeleitet?

Rattei » Definitiv. Diese Vorgaben beruhen alle auf praktischen Erfahrungen. Da sehe ich auch kein Überschießen und keine Überregulation. Wie schon erwähnt: Hier waren ja Autoren beteiligt, die in der Praxis selber mit dem Sammeln und Auswerten genau solcher Daten befasst sind – Wissenschaftler aus großen Forschergruppen und Datenbanken. Die Belange der Praktikabilität sind hier absolut berücksichtigt, sonst hätte dieses Paper auch keine Chance, als Richtlinie anerkannt zu werden.

Wie sieht es denn aus mit Standards zur taxonomischen Klassifikation von Viren?

Rattei » Da sind wir jetzt bei einem ganz anderen Aspekt. Wenn es nur um die Frage geht, wie gut wir eine DNA-Sequenz rekonstruiert haben, können wir das mit wenigen Zahlen beschreiben. Doch bei einer neuen Gattung oder einer neuen Spezies gibt es so viele Argumente und zum Teil konkurrierende Konzepte – mit dem Resultat, dass es ja eigentlich bis heute noch ein offener Punkt ist, was genau nun eine Bakterienspezies ist. Bei den Viren ist das genauso. Wir haben in unserer Arbeit zwar einen Abschnitt zur Taxonomie, der hat aber mehr einen Vorschlagscharakter.

Was ist denn eigentlich eine Virusspezies?

Rattei » Ein Virus können wir sehr stark darüber festmachen, wo es beobachtet wird. Da geht es vor allem um den Wirt. Aber auch um sein Aussehen. Weitere Attribute wie der Lebenszyklus oder sonstige vergleichbare Eigenschaften sind wichtig, um Viren zu Gruppen zusammenzufassen. Am Ende würde jedes Virus, das eine bestimmte Art etwa eines Säugetiers befällt, eine eigene Speziesbezeichnung bekommen.

Bei den Phagen, die Bakterien befallen, weiß man aber oft gar nichts über den Wirt. Mal ganz zu schweigen von dem Problem, dass man viele dieser möglichen Wirtsorganismen bislang noch gar nicht im Labor kultivieren kann. Wenn man solche Viren über metagenomische Ansätze rausfischt, dann hat man bestenfalls eine vollständige Nukleotidsequenz – aber ohne etwas über Ökologie und Wirt zu wissen.

Rattei » Genauso ist es. Allerdings gibt ja auch das Genom selbst Auskunft über Gemeinsamkeiten und Unterschiede. Zumindest kann ich Genome gut vergleichen. Natürlich ist es unmöglich, eine genaue Grenze festzulegen, ab wie vielen Basen Unterschied wir von einer neuen Virusart sprechen wollen. Durch eine Kombination mit den Metagenomen zellulärer Mikroorganismen wird es aber wieder spannend. Viren werden ja durchaus häufig als Proviren in Wirtsgenome integriert. Also kann man einen gezielten Vergleich durchführen zwischen den viralen Sequenzen im Virom und der DNA im mikrobiellen Teil. Recht häufig gelingt es, darüber eine Beziehung zwischen einem Virus und einem Wirt herzustellen. So entdecken Forscher sogar potenzielle Viren, die zuvor noch gar nicht frei beobachtet worden sind. Für das Suchen in solchen Gen-Fragmenten gibt es Software wie zum Beispiel den VirSorter (PeerJ. 3: e985).

Damit würde man aber zunächst einmal nur Hypothesen generieren. Ob solch ein Virus dann wirklich im untersuchten Biotop frei vorkommt und ein bestimmtes Bakterium befällt, müsste man dann in vivo nachweisen.

Rattei » Leider gibt es keine einfachen Experimente, mit denen wir solche Voraussagen grundsätzlich prüfen können. Dazu brauchen wir auch in der Mikrobiologie Fortschritte in der Kultivierung von Bakterien. Etwa durch automatisiertes massenhaftes Durchprobieren von Kultivierungsbedingungen – das, was man heute Culturomics nennt.

Nun schätzen Mikrobiologen, dass der Anteil der bislang im Labor kultivierten Bakterienarten weniger als ein Prozent aller Bakterienspezies ausmacht. Von den Viren soll es wiederum ein Vielfaches geben. Da ist es doch fast aussichtslos, über all die Viren einen Überblick zu bekommen, die den Bakterien gegenüberstehen.

Rattei » Das ist eine gute Beschreibung der aktuellen Situation. Und genau deshalb ist es ja so wichtig, die Bioinformatik zu strukturieren. Denn wenn die Genomsequenz der Viren in den meisten Fällen die einzige Information ist, auf die wir je Zugriff haben, dann sollte diese Information zumindest gut reproduzierbar sein. Zwei Labors, die ähnliche Proben sequenzieren, müssten zumindest ungefähr zu einer ähnlichen Beschreibung kommen. Das wird niemals perfekt gelingen. Aber zumindest sollten wir dann Richtlinien haben, an denen wir uns festhalten können. Und wenn wir auf diese Daten einfachen Zugriff haben, weil sie nach gemeinsamen Standards strukturiert sind, dann können wir als Bioinformatiker auch viel leichter neue Methoden zur Datenanalyse entwickeln.

Was wird sich in den nächsten fünf bis zehn Jahren in der Virusgenomik verändern?

Rattei » Ganz sicher müssen wir diese Assemblies nicht mehr machen, da bin ich sehr zuversichtlich. Fragmente zusammensetzen, wie wir es jetzt machen, das wird abgelöst werden durch Sequenziermethoden, die lange Reads in guter Genauigkeit liefern und im Preis sinken werden. Dann gibt es nicht mehr diesen Flaschenhals, dass wir nur analysieren können, was wir auch assemblieren können. Als Bioinformatiker werden wir natürlich Software entwickeln müssen, die die höhere Fehlerrate dieser langen Reads wieder ausgleicht.

Werden Sequenzanalysen dadurch bloß einfacher, oder wird diese neue Herangehensweise über größere Leselängen auch grundsätzlich neue Erkenntnisse liefern?

Rattei » Was möglich sein wird, ist eine Analyse von Viruspopulationen. Das ist momentan über Assemblies sehr schwer und klappt fast gar nicht. Denken Sie an ein Virus, das dem Grippevirus ähnelt; es gibt verschiedene Varianten davon, die aber genetische Segmente untereinander austauschen können. Nun kommen klassische Grippeviren in verschiedenen Varianten selten im selben Habitat vor. Doch wenn wir solch ähnliche Virenstämme in derselben Probe haben, lassen die sich Assembly-basiert fast nicht unterscheiden. Durch lange Reads aber können wir diese unterschiedlichen Typen sehen. Wir werden dann rückschließen können, welche Genotypen in welchem Virom wie häufig vorkommen – und das wiederum mit dem Auftreten zellulärer Organismen oder den Umgebungsbedingungen korrelieren. Also das funktionelle Verständnis, warum welche Viren wann erfolgreich sind, das wird sich fundamental erweitern.



Letzte Änderungen: 29.11.2019