Editorial

Engpass Bioinformatik: Warum die Genom-Analyse im Kampf gegen Pandemien essenziell ist

Von Franziska Hufsky, Jena


(16.07.2021) Angesichts von SARS-CoV-2 erlebt die Viren-Bioinformatik einen Riesenboom. Fieberhaft entwickeln Bioinformatiker neue Tools und Programme für die Sequenzanalyse und phylogenetische Überwachung des Virus. Auch bei zukünftigen Pandemien wird die Genomanalyse darüber entscheiden, wie schnell und effektiv Virologen, Epidemiologen, Gesundheitsämter und Politiker auf die Bedrohung durch ein gefährliches Virus reagieren können.

Vor hundert Jahren forderte die Spanische Grippe weltweit mehrere Millionen Tote. Heute sind wir erneut mit einem Virus konfrontiert, dem bereits über 3,5 Millionen Menschen zum Opfer fielen. Vor zwei Jahren (also etwa ein halbes Jahr vor Ausbruch der Pandemie) habe ich mir auf meinem Blog „BioInfoWelten“ Gedanken darüber gemacht, wie realistisch das Hollywood-Szenario eines „Apokalypse-Virus“ ist [1]. Ich will ja nicht sagen, „Ich habe Sie gewarnt” – aber ein bisschen prophetisch habe ich mich danach doch gefühlt.

In meinem Beitrag ging es vor allem darum, wie sich die Epidemiologie von der Falldaten-Analyse und Kontaktverfolgung weg entwickelt und auf die Big-Data-Ebene gehoben wird. Heute versuchen Forscher, epidemiologische Fragen mithilfe der Sequenzierung viraler Genome und ihrer bioinformatischen Analyse mit molekularer Präzision zu beantworten: Wie wird das Virus übertragen? Wie breitet es sich aus? Wie nützlich sind Interventionsmaßnahmen (Masken, Abstands- und Hygiene-Regeln)? Wie verändert sich das Virus? Wie groß ist der Raum der Quasi-Spezies, also verschiedener Varianten des Virus?

bild
Illustr.: AdobeStock / fran_kie

Sequenzdaten sind deswegen so interessant, weil sich Viren schnell vermehren und dabei ihre Genome rasant verändern – insbesondere RNA-Viren wie SARS-CoV-2. Aktuelle Sequenziertechniken erfassen virale Genome zu relativ geringen Kosten in Echtzeit. Dennoch ist eine Vollgenom-Sequenzierung teurer als die einfache klinische Überwachung durch qPCR-Tests und wurde daher zu Beginn der Pandemie kaum eingesetzt. Die Genomsequenz von SARS-CoV-2 wurde bereits am 5. Januar 2020 auf GenBank veröffentlicht, in vielen Ländern begann die molekulare Überwachung des Virus aber deutlich später – in Deutschland startete man damit erst, nachdem bereits ein volles Jahr Pandemie ins Land gezogen war. Erst die beunruhigende Aussicht, dass die entwickelten Impfstoffe bei den veränderten Virusvarianten weniger wirksam sein könnten, sowie der Druck von Seiten der Wissenschaft führten weltweit zu einer konsequenteren Überwachung des Virusgenoms.

Pandemie-Erreger zeichnen sich durch hohe Reproduktionsraten und schnelle Anpassungsfähigkeit aus, wodurch ständig neue Varianten mit veränderten Virulenz-Eigenschaften entstehen. Im Vergleich zu anderen RNA-Viren evolviert SARS-CoV-2 verhältnismäßig langsam. Das Virus befällt die Wirtszelle, repliziert sich und eine „Wolke“ veränderter Viren (im Durchschnitt je eine Veränderung zwischen den einzelnen Genomen) verlässt die Zelle. Anhand der Sequenzdaten kann man die genomischen Veränderungen dieser Quasi-Spezies nachvollziehen, neu auftretende Varianten schnell identifizieren und ihre Ausbreitung genau beobachten. Darüber hinaus lässt sich mit ihnen abschätzen, ob neue Varianten hinsichtlich der Übertragbarkeit oder der verminderten Wirkung von Impfstoffen eine Gefahr für die Bevölkerung darstellen. Bei SARS-CoV-2 achtet man zum Beispiel besonders auf Mutationen im Spike-Protein, die sich auf Übertragungsrate und Infektiosität auswirken, oder auf Mutationen, welche die Effizienz von Tests oder Impfstoffen unterlaufen könnten.

Editorial

Editorial

In Deutschland wurden verschiedene Konsortien ins Leben gerufen, um die Genomsequenzierung von SARS-CoV-2 systematisch und mit möglichst vollständigen Informationen voranzubringen, zum Beispiel die im März 2020 gegründete „Deutsche COVID-19 OMICS Initiative“ (DeCOI) [2]. In die Genomsequenzierung zu investieren, ist nicht nur ein wichtiger Schritt auf dem Weg zu einem tieferen Verständnis von SARS-CoV-2 und der aktuellen Pandemie. Sie ist auch die Basis für neue Erkenntnisse aus der Grundlagenforschung, mit denen man gezielter auf zukünftige Pandemien reagieren kann.

Die Idee ist nicht neu. Schon vor einigen Jahren sprachen sich Virologen und Bioinformatiker im Dialog mit nationalen und europäischen Regierungen für mehr Genomsequenzierung aus – leider ohne großen Erfolg [3]. Aber jeder Krise wohnt auch eine Chance inne, und so legt diese Pandemie vielleicht den Grundstein für die nachhaltige Überwachung von Virengenomen. Denn es ist nur eine Frage der Zeit, bis auch andere Viren den Weg in den Menschen finden. Klimawandel, Entwaldung, Urbanisierung, kapitalistische Tierwirtschaft sowie die beispiellose Mobilität von Waren, Menschen, Tieren und Krankheitsüberträgern erleichtern die Ausbreitung von Viruserkrankungen und schaffen ideale Bedingungen für Pandemien. Also sollten wir im besten Fall schon vor der nächsten Pandemie eine Ahnung davon haben, was uns erwartet. Die Genomanalyse kann hierbei entscheidend helfen.

Die schiere Menge an Daten wirft aber die Frage auf, wie daraus die relevanten Informationen extrahiert und interpretiert werden sollen. Wissenschaftler nehmen das Genom des Virus unter die Lupe, um Einblick in die Evolution und Pathogenese des Virus zu erhalten und nach dessen Schwachstellen zu suchen. Sie spüren Veränderungen auf Genom- und Proteinebene auf, verfolgen die Pandemie mithilfe phylodynamischer und epidemiologischer Modelle und untersuchen mögliche Angriffspunkte für Medikamente. Viele dieser grundlegenden Fragen können angesichts der Datenmengen nur mithilfe der Bioinformatik angegangen werden.

Die Viren-Bioinformatik erlebte in den vergangenen anderthalb Jahren einen Boom wie nie zuvor. Entsprechende Tools waren vor der Pandemie nur begrenzt verfügbar, etwa für HIV oder Influenza-Viren. Auch wenn es wohl vorerst nicht möglich sein wird, die nächste Virus-Epidemie vorherzusagen, sollten wir alle Hebel in Bewegung setzen, um im Falle eines erneuten Ausbruchs wissenschaftlich fundiert und effizient reagieren zu können. Die Genomanalyse wird in Zukunft eine entscheidende Rolle bei den Reaktionen des öffentlichen Gesundheitssystems spielen, einschließlich dem epidemiologischen Vorgehen zur Verfolgung und Eindämmung von (viralen) Ausbrüchen.

bild
Illustr.: AdobeStock / fran_kie

Die adäquate Analyse der Daten hat enormes Potenzial. Theoretisch könnten wir anhand von Genomdaten Übertragungsketten nicht nur erkennen, sondern auch unterbrechen. Die weltweite phylogenetische Überwachung von Virusvarianten ist unabdingbar, um zum Beispiel das Risiko von (Flug-)Reisen einzuschätzen, um gegebenenfalls Impfstrategien zu ändern oder Patienten eine spezielle medizinische Behandlung zukommen zu lassen.

In der Realität bleibt die Analyse der Daten aber ein Engpass. Die Arbeit landet oft auf dem Tisch junger Wissenschaftler, die entsprechende Tools zusammenbasteln, um wichtige Antworten zu finden. In den Belohnungssystemen der Wissenschaft (seien es hochrangige Publikation oder eingeworbene Forschungsgelder) ist aber kein Platz für den Dienst an der Öffentlichkeit während der Pandemie – und das, wo wir doch zumindest in Deutschland zumeist über den öffentlichen Dienst finanziert werden. Zum Teil müssen Wissenschaftler sogar ihre eigene Forschung vernachlässigen. Auf die Spitze getrieben führt das dazu, dass diejenigen, die die meiste Arbeit für die öffentliche Gesundheit leisten, am wenigsten Zeit haben, sich um Forschungsgelder und Jobs zu bewerben.

Durch die begrenzten Kapazitäten der Forscher können hohe Softwarestandards meist nicht gewährleistet werden. Stattdessen werden häufig nur Prototypen für die schnelle Datenanalyse entwickelt. Durch gezieltere Zusammenarbeit und Zusammenlegen von Projekten mit ähnlichen oder sich überschneidenden Zielen könnte die Arbeitsleistung gebündelt und die Qualität der Software erhöht werden. Das erfordert jedoch einen zentralen Überblick über neu entwickelte Tools und laufende Forschungsprojekte und darüber, wie diese zusammenpassen könnten. Zudem sind die Lebenszyklen von Software in der Forschung meist relativ kurz. In der Regel ist die kontinuierliche Wartung, Instandhaltung und Weiterentwicklung in der wissenschaftlichen Förderung nicht vorgesehen, sodass die Entwickler gezwungen sind, sich anderen Projekten und Forschungsförderungen zuzuwenden.

Es ist ein großer und wichtiger Schritt, Sequenzdaten im großen Maßstab zu sammeln und so zu speichern, dass sie auch nachträglich effektiv und in verschiedene Richtungen ausgewertet werden können. Dafür ist es unerlässlich, qualitativ hochwertige Sequenzdaten und Metadaten über offene Datenbanken ohne Einschränkungen zur Verfügung zu stellen. Um diesen Austausch von Daten zu begünstigen, ist es wichtig, die Arbeit der Wissenschaftler entsprechend zu würdigen und zu belohnen und sie davor zu schützen, dass ihre Analysen „geklaut“ werden. Solch ein offenes System kann nur mit einer gehörigen Portion Vertrauen funktionieren. Die Eile, mit der Daten derzeit zur Verfügung gestellt werden, ist für das nötige schnelle Handeln wichtig, sie birgt aber auch Gefahren. Zu diesen gehört etwa, dass auch weniger erfahrene Labore gezwungenermaßen in die Sequenzierung einsteigen mussten.

Der NFDI4Microbiota-Verbund ist in Deutschland die zentrale Anlaufstelle für den Zugang zu Daten(-standards), Metadaten und Analysediensten sowie für die Vernetzung von Wissenschaftlern aus verschiedenen Disziplinen [4]. Er setzte sich schon früh in der Pandemie für mehr SARS-CoV-2-Genomsequenzdaten ein und bot bei Probenvorbereitung, Sequenzierung, Verarbeitung und dem Upload der Daten Hilfe an. Die Daten können viele kleine, aber nachteilige Fehler enthalten – in den Sequenzen selbst und in den dazugehörigen Metainformationen.

Zu Beginn dieses Jahres bemerkten Wissenschaftler zum Beispiel eine Zunahme von Sequenzen, die mit „Januar 2020“ gekennzeichnet waren. Doch wurden nicht etwa neue Proben auf der Suche nach aufschlussreichen Hinweisen aus den Gefriertruhen geholt. Nein, Schuld war ganz einfach ein hart codiertes Jahr „2020“ in der Software.

In den Sequenzen selbst sind Fehler meist noch subtiler und folgenschwerer. Verunreinigungen, minderwertige Proben und Fehler bei der Sequenzierung können vermeintliche Mutationen vortäuschen oder echte entfernen. Mangelhafte Daten führen zu fehlerhaften Auswertungen und Schlussfolgerungen. Auch muss die Vorauswahl der zu sequenzierenden Proben in die Auswertung der Ergebnisse einbezogen werden, um kein falsches Bild zu erzeugen, wenn zum Beispiel bestimmte Regionen (oder ganze Länder) unterrepräsentiert sind. Erfahrung und Standardisierung wirken dem natürlich entgegen. Es braucht aber auch stabile und offene Infrastrukturen, die es ermöglichen, Sequenzen und Metadaten während der Pandemie kontinuierlich zu überwachen und schnell auf möglicherweise auftretende Qualitätsprobleme oder Verbesserungsmöglichkeiten zu reagieren. Darüber hinaus werden sich die Fragestellungen und die dafür entwickelten Tools stetig ändern. Fehler werden passieren. Wichtig ist, daraus zu lernen.

Im Laufe der Pandemie wurden viele Bioinformatik-Methoden neu entwickelt oder auf Coronaviren erweitert und angepasst. Bioinformatiker auf der ganzen Welt haben schnell auf die Pandemie reagiert und stellen bioinformatische Tools zur Analyse von Coronaviren bereit, um die SARS-CoV-2-Forschung voranzutreiben. Das Europäische Zentrum für Viren und Bioinformatik (EVBC) trägt diese Methoden zusammen und macht sie den Forschern zugänglich [5]. Unsere Sammlung enthält bereits 45 verschiedene Methoden zu Coronaviren, die von der Untersuchung der Genomsequenz bis hin zur Analyse von Virus-Wirt-Interaktionen sowie möglichen diagnostischen und therapeutischen Ansätzen reichen [6].

Es ist ermutigend, zu sehen, wie sich Forscher in nationalen und internationalen Initiativen zur Bekämpfung der laufenden Pandemie zusammenschließen und darüber hinaus die Grundlagenforschung in der VirenBioinformatik weiter ausbauen. Die Überwachung eines pandemischen Virus funktioniert letztlich am besten, wenn viele Experten mit unterschiedlichen Expertisen (Epidemiologie, Virologie, Infektiologie, Bioinformatik et cetera) in gut organisierten Netzwerken ohne große bürokratische Hürden zusammenarbeiten und ausreichend finanziert werden.

Im Forschungsnetzwerk VIROINF wird die nächste Virologen- und Bioinformatiker-Generation in engem Austausch miteinander ausgebildet, um die Virenforschung zukünftig mit speziell entwickelten bioinformatischen Tools auszustatten [7]. Dabei ist es besonders wichtig, dass Bioinformatik und Labor Hand in Hand arbeiten. Zum einen ist es sinnvoll, die Bioinformatik schon ins Boot zu holen, bevor die Daten generiert werden, denn eine gezielte Vorbereitung der Daten auf die gesuchte Fragestellung ist entscheidend für ein aussagekräftiges Ergebnis. Andererseits müssen rechnerische Resultate im Labor überprüft und bestätigt werden. Das VIROINF-Projekt hat schon vor Ausbruch der Pandemie erkannt, dass bioinformatische Methoden parallel zu experimentellen Anwendungen entwickelt werden müssen. Nur so sind sie von unmittelbarem und praktischem Nutzen und ermöglichen ein zusammenhängendes Verständnis sowie neuartige Strategien zur Überwachung und Bekämpfung von Viruserkrankungen.



Referenzen

[1] https://scienceblogs.de/bioinfowelten/2019/06/26/apokalypse-virus-hollywood-oder-realitaet/

[2] https://decoi.eu/

[3] Marz M et al. (2014): Challenges in RNA virus bioinformatics. Bioinformatics; 30 (13): 1793–99.

[4] https://nfdi4microbiota.de/

[5] http://evbc.uni-jena.de/

[6] Hufsky F et al (2020): Computational strategies to combat COVID-19: useful tools to accelerate SARS-CoV-2 and coronavirus research. Brief Bioinform. doi: 10.1093/bib/bbaa232

[7] https://viroinf.eu/



Zur Autorin

Franziska Hufsky ist promovierte Bioinformatikerin und Wissenschaftliche Koordinatorin des Europäischen Zentrums für Viren und Bionformatik am Lehrstuhl für RNA-Bioinformatik und Hochdurchsatzanalyse an der Friedrich-Schiller-Universität Jena. In dem von ihr geführten Blog „BioInfoWelten“ der Universität Jena erklärt sie alles zur Bioinformatik von Mäusen, Bäumen, Viren und Co.