Editorial

Überdenken

„All Biology Is Computational Biology“

Von Florian Markowetz, Cambridge


(12.07.2017) Computer-basierte Ansätze ziehen sich durch alle Aspekte der Lebenswissenschaften. Die nächste moderne Synthese in der Biologie wird mathematische, statistische und Computer-basierte Methoden zum zentralen Bestandteil der Biologieausbildung machen – und damit Biologie zu einer quantitativen Wissenschaft entwickeln.

Essays
Illustr.: iStock / Akindo

„Wie werden Leute wie du jemals Letztautoren?“ Im Jahr 2008 stellte eine führende Zellbiologin mir diese Frage während des Bewerbungsgesprächs für meinen aktuellen Job. Offenbar wusste sie nicht recht, wie ich bei Forschungsprojekten jemals eine leitende Rolle einnehmen könnte. Ich war in Mathematik und Maschinellem Lernen ausgebildet worden und hatte mich damals für eine Gruppenleiter-Stelle als Computational Biologist in einem Krebsforschungsinstitut beworben. Der Zellbiologin, die mich interviewte, schien allerdings nicht klar, wie mein eigener Beitrag zur biologischen Forschung aussehen könnte. Sind Computer-Hacker nicht einfach nur Dienstleister? Nett, dass man sie hat, aber ohne echte wissenschaftliche Vision? Kurzum: Sie bezweifelte stark, dass ich tatsächlich unabhängige biologische Forschung machen könnte.

Sie war nicht die Letzte, die sich darum sorgte. Im Jahre 2012 hatte ich bereits mehrere Paper als Letztautor und war in der engeren Wahl für einen EMBO-Young-Investigator-Preis. Ich ging am Ende leer aus. In der Begründung nannte das Auswahlgremium meine Gruppe eine „mathematische Service-Einheit“, bemängelte „einen Mangel an tiefgehendem Verständnis der Biologie“ und glaubte „eine übermäßig starke Abhängigkeit von Kooperationspartnern“ aufgedeckt zu haben.

Im letzten Jahr bekam dann schließlich jeder einen Eindruck davon, wie schlecht die Meinung über rein Computer-basierte Arbeit in der biomedizinischen Gemeinschaft tatsächlich sein kann, als der Chief Editor des New England Journal of Medicine den Begriff der „Forschungsparasiten“ verwendete, um Bioinformatiker zu beschreiben, die Sinn aus bereits veröffentlichten Daten machen [1].

Zwar haben sich in den vergangenen zwanzig Jahren Rechner-basierte Methoden zu einem zentralen Bestandteil der Lebenswissenschaften entwickelt, aber die obigen Beispiele zeigen dennoch, dass „Old School“-Biologen und -Kliniker – diejenigen also, die weithin über Veröffentlichungen, Förderung und Karrieren entscheiden – immer noch Unbehagen gegenüber Leuten wie mir verspüren. Gegenüber Leuten also, die in anderen Disziplinen ausgebildet wurden, die biologische Fragen verfolgen, welche sich deutlich von ihren eigenen unterscheiden, und die Ansätze verwenden, die zu einem Großteil nicht in der biologischen Ausbildung abgedeckt sind. Wenn aber schon meine eigenen Kollegen in den Life Sciences nicht sehen, welche Bedeutung Computer-basierte Forschung für unser Fach hat – wie kann dann überhaupt irgendjemand deren Wert schätzen?

Im Folgenden will ich daher darlegen, dass algorithmisches und statistisches Denken inzwischen derart zentral für die Suche nach einem Verständnis von Leben sind, dass heute sämtliche Biologie Computational Biology ist (im Deutschen oft, aber nicht ganz passend Bioinformatik genannt).

„[B]iology adapted itself to the computer, not the computer to biology“, schreibt Hallam Stevens in Life Out of Sequence [2], seiner ethnographischen und historischen Abhandlung der Computational Biology. Er erklärt weiter: „Computer skalieren nicht einfach nur die alte Biologie hoch, vielmehr bringen sie – beispielsweise mit Statistik, Simulation und Datenmanagement – völlig neue Werkzeuge und Möglichkeiten der Fragestellung mit sich, die die Art und Weise, wie biologische Forschung gemacht wird, komplett neu ausrichten werden.“

Ein wichtiges Beispiel dafür, wie Computer die biologische Forschung neu gestaltet haben, ist die Verwendung von Datenbanken und Ontologien. Biologisches Wissen wird heutzutage durch Techniken der Computerwissenschaft definiert, organisiert und abgerufen. Wenn Carl von Linné, der schwedische Botaniker und Gründungsvater der Taxonomie, heute lebte, wäre er sicher ein Computational Biologist. Als Botaniker würde er wohl eine führende Rolle in einem Projekt wie transPLANT (http://www.transplantdb.eu/) spielen, in dem geordnet zusammengestellt wird, was wir insgesamt über die Genotypen und Phänotypen von Kultur- und Modellpflanzen wissen. Oder Linné würde im Gene Ontology Consortium (http://www.geneontology.org/) mitarbeiten, um ein gemeinsames Begriffsverzeichnis zu schaffen, welches das biologische Wissen über die Organismengrenzen hinweg vereint. Genau wie damals Linnés Systema Naturae sind solche Datenbanken heute wichtige intellektuelle Beiträge zu unserem Verständnis von Leben. Jede weitere Art der biologischen Forschung baut auf diesen Grundlagen auf.

Eine weitere Art, wie Computer die Biologie umgestaltet haben, ist die Einführung von Statistik sowie Methoden der Datenanalyse. Ein gutes Beispiel hierfür ist das Verständnis darüber, wie Mutationsprozesse Genome prägen [3]. Mutationsprozesse – sei es ausgelöst durch Zigarettenrauch, Sonnenlicht oder Defekte in der homologen Rekombination – sind in einzelnen Mutationen nicht erkennbar, sondern nur im Rahmen globaler Mutationsmuster. Wie oft wurde etwa ein C in ein T umgewandelt? Wie stark hängt diese Häufigkeit von den Nachbar-Nukleotiden der mutierten Base ab? Wie hoch ist der Anteil an dieser Häufigkeit, der durch andere Prozesse im Genom erklärt werden kann – etwa Replikations-Timing? Die Beantwortung dieser Fragen hilft uns, grundlegende Eigenschaften der Mutationsprozesse zu verstehen, die in den Zellen aktiv sind. Und dies wiederum ist nur möglich durch die Anwendung statistischer Techniken, die Muster und Korrelationen identifizieren.

Diese Arten von Analysen benötigen natürlich große Datensammlungen – und so ist der Erfolg der Computational Biology eng verknüpft mit den Leistungen der groß angelegten Initiativen, die Genotypen und Phänotypen von Modellorganismen und Menschen erfassen. Eines der ersten Beispiele, welches das Leistungsvermögen Computer- und rechnergestützter Ansätze hervorhob, war die Sequenzierung des menschlichen Genoms, die zeigte, mit welch hoher Effizienz bioinformatische Alignment- und Scaffolding-Methoden in der Lage waren, die durch die Shotgun-Sequenzierung erzeugten DNA-Fragmente zu langen Sequenzen zusammenzubauen [4]. Entsprechend greifen auch die modernen Next-Generation-Sequencing-Techniken von heute komplett auf die Fortschritte in der Computational Biology zurück, um die riesigen Mengen der erhaltenen Sequenzschnipsel zu analysieren [5]. Die DNA-Sequenzierung war einst eine Nobelpreis-würdige Entwicklung. Heute macht die Computational Biology sie zu einem breit verfügbaren und leicht anwendbaren Tool sowohl in der Grundlagen-Biologie als auch in der medizinische Forschung – und revolutioniert damit, was wir über Gewebe und einzelne Zellen wissen.

Durch das Kombinieren großer Datensammlungen mit Datenbanken und Statistiken liefert die Computational Biology eine Referenzkarte für die Biologie – einen Atlas des Lebens, der die einzelnen Erkenntnisse zusammenführt. Diese Karte hat nicht die Auflösung, wie sie etwa Google Street View zur Verfügung stellt, vielmehr ist es eine Karte wie diejenigen von Columbus, Magellan oder Vasco da Gama – allesamt unerschrockene Entdecker auf der Suche nach Abenteuer. Die Karte bietet zwar einen allgemeinen Überblick, aber viele Gegenden sind noch skizzenhaft, während andere wichtige Teile sogar noch ganz fehlen und auf Entdeckung warten. „Hic sunt dracones (Hier sind Drachen)“ stand damals für solche Teile auf den Karten. Dennoch bietet selbst bei all den weißen Flecken die Karte einen unentbehrlichen Leitfaden: Der von der Computational Biology bereitgestellte Atlas des Lebens bildet den Hintergrund für die Planung, Durchführung und Interpretation all der vielen zielgerichteten Experimente, welche die nicht-kartierten Bereiche untersuchen und damit die Grenzen des biologischen Wissens erweitern sollen.

Weiterhin haben Computer die Biologie schließlich neu gestaltet, indem sie zuvor unscharfe Konzepte präzisiert und testbar gemacht haben. Hier ein Beispiel aus meiner eigenen Forschung: Seit Jahrzehnten diskutieren Krebsforscher die Idee, dass die genetische Heterogenität unter den Zellen des gleichen Tumors dazu beiträgt, eine Krebserkrankung therapieresistent zu machen [6]. Es ist eine einfache Idee: Je vielfältiger die Zellpopulation ist, desto wahrscheinlicher ist es, dass eine Teilmenge der Zellen resistent gegen die Therapie ist – und dass diese am Ende dafür sorgt, dass der Tumor wieder nachwachsen kann, nachdem alle anderen Zellen getötet wurden.

Essays
Illustr.: iStock / Akindo

Aber wie kann man „genetische Heterogenität“ genau messen, und wie groß ist ihr Einfluss auf die Resistenzentwicklung? Um diese Fragen zu beantworten, mussten wir die Idee in eine testbare Hypothese umwandeln. Wir verwendeten genomische Ansätze, um an verschiedenen Stellen innerhalb eines Patienten Änderungen in den Krebsgenomen zu messen. Mittels der Ergebnisse definierten wir quantitative Maßeinheiten für die Heterogenität, die wir statistisch mit klinischen Daten zur Behandlungsresistenz des Tumors vergleichen konnten. Und in der Tat fanden wir auf diese Weise Belege für die ursprüngliche Idee, dass die Heterogenität den Grad der Resistenz festlegt [7].

Dies ist nur eines von vielen Beispielen, in denen ein quantitativer Computer-gestützter Ansatz erforderlich war, um eine unscharfe Idee in eine testbare Hypothese zu überführen. Das Fazit daher: Computational Biology zeichnet sich dadurch aus, dass sie aus riesigen Mengen an komplexen Daten etwas herausdestilliert, das im Nasslabor getestet werden kann – womit sie unmittelbar die Richtung für experimentelle Folgestrategien vorgibt.

Pipetten-Biologe. Mikroskopie-Biologe. Zellkultur-Biologe. Hat irgendjemand jemals Jobtitel dieser Art gehört? Nein, natürlich nicht – alle sind Biologen! Was zählt, sind die Fragen, die sie stellen – und nicht die Werkzeuge, die sie nutzen. Folglich sind „Computer-Biologen“ nichts anderes als Biologen mit einem anderen Werkzeug.

Die nächste moderne Synthese in der Biologie wird von der Integration mathematischer, statistischer und informatischer Methoden in die biologische Grundausbildung angetrieben. Diese wird sich mehr und mehr der Ausbildung in Physik angleichen – und das Vermitteln experimenteller Techniken mit mathematischer Theorie und Datenanalyse kombinieren. Und spätestens dann werden auch „Old School“-Biologen die Computational Biologists als welche der ihren ansehen.

(Die englische Originalversion dieses Essays veröffentlichte Florian Markowetz bereits im März 2017 in PLoS Biology,15(3): e2002050.)



Zum Autor

Florian Markowetz ist ein deutscher Computational Biologist und Gruppenleiter am Cancer Research UK Cambridge Institute.



Referenzen

[1] Longo D.L. and Drazen J.M., Editorial Data Sharing. N Engl J Med 374: 276-7.
[2] Stevens Hallam, Life Out of Sequence: A Data-Driven History of Bioinformatics. The University of Chicago Press; 2013.
[3] Alexandrov L. B. et al., Signatures of mutational processes in human cancers. Nature 500(7463): 415-21.
[4] Weber J.L. and Myers E.W., Human whole-genome shotgun sequencing. Genome Res. 7(5): 401-9.
[5] Flicek P. and Birney E., Sense from sequence reads: methods for alignment and assembly. Nat Methods 6(11 Suppl): S6–S12.
[6] Nowell P.C., The clonal evolution of tumor cell populations. Science 194(4260): 23-8.
[7] Schwarz R.F. et al. Spatial and temporal heterogeneity in high-grade serous ovarian cancer: a phylogenetic analysis. PLoS Med. 12(2): e1001789.


Letzte Änderungen: 12.07.2017