Kollegiale Rechenhilfe
(21.09.2020) Use your power – und zwar die eines Computers. Mit „Distributed Computing“ lässt sich ganz einfach zum Beispiel die RNA-Forschung vorantreiben.
Forschung nach Feierabend – ohne auch nur einen Finger zu krümmen. Das geht. Das Zauberwort heißt: Distributed Computing (DC) oder zu deutsch: Verteiltes Rechnen. Alles, was man tun muss, ist den Rechner anschalten (ok, dafür muss unter Umständen ein Finger gekrümmt werden), schon beteiligt sich die CPU oder GPU (die Grafikkarte) mit ihrer Rechenpower an wissenschaftlichen Projekten.
Zum Beispiel zur SARS-CoV-2-Bekämpfung. So lässt beispielsweise die Plattform Folding@home, koordiniert von der Universität Stanford, momentan das Non-Structural Protein 8 (NSP8), einer von zwei Co-Faktoren der viralen Hauptpolymerase NSP12, simulieren, um mögliche Angriffspunkte für Medikamente zu finden. Generell geht es bei Folding@home um Simulationen molekularer Dynamiken. Dabei wird durch „virtuelles Rütteln“ einer zu Beginn entfalteten Aminosäurekette versucht, eine stabile Konformation des Proteins zu finden.
Riesige Rechenleistung
„Together we are powerful“ ist der passende Slogan der DC-Plattform. Und in der Tat konnte das Team hinter den Protein-Zuhause-Faltern kürzlich auf bioRxiv berichten, dass sich mehr als eine Million Menschen speziell am SARS-CoV-2-Projekt beteiligt und gemeinsam so den „weltweit ersten ‚Exascale Computer‘“ geschaffen haben. Was in etwa der Rechenleistung des menschlichen Gehirns auf neuraler Ebene entspricht.
Auch in Deutschland hat man schon lange das Potenzial von Verteiltem Rechnen erkannt – sowohl für die Wissenschaft selbst als auch für die Kommunikation von Wissenschaft in die Öffentlichkeit (Stichwort: Citizen Science). Seit 15 Jahren gibt es den gemeinnützigen Verein Rechenkraft.net e. V. mit Sitz in Marburg. „Rechenkraft.net war zunächst eine Online-Community von Computer-Enthusiasten, die mit ihren privaten Computern an großen wissenschaftlichen Projekten mitrechnen wollten“, blickt Michael Weber, Vorstandsvorsitzender des Vereins und Chemiker, zurück. „Damals war es noch so, dass die CPU-Architekturen keinerlei Stromsparfunktionen besaßen, sodass es bestenfalls einen Unterschied von 15 W machte, ob ein typischer PC nur ‚idle‘ herumstand oder unter Volllast lief. Die Dinger anlassen, ohne etwas darauf zu rechnen, war also reine Energievergeudung.“ Bedenkt man, dass damalige Office-Anwendungen gerade mal 5 % der CPU-Last benötigten, hatte man also in der Tat sehr viel „freie Energie“ übrig, die sich „sinnvoll ausreizen“ ließ.
Wettrechnen für die Wissenschaft
Genau das taten die angehenden Vereins-Gründer auch und beteiligten sich im Team an weltweiten DC-Projekten. International waren sie meist unter den Top 10, berichtet Weber nicht ohne Stolz. Daneben begann man, für andere Computer-Enthusiasten mit Wissenschafts-Faible alle laufenden DC-Projekte weltweit aufzulisten und die Infos online zur Verfügung zu stellen. Jeder Interessierte konnte sich so sein Lieblingsprojekt rauspicken – ob in der Evolutionsbiologie, Astrophysik oder Krebsforschung – und losrechnen. „Citizen Science in Reinstform“, sagt Weber. Schließlich gründete man, „weil unsere Begeisterung für das Thema immer weiter zunahm“ und auch um weiter oben mitmischen zu können und DC populärer zu machen, Ende 2004 den „Verein zur Förderung von Bildung, Forschung und Wissenschaft durch Einsatz vernetzter Computer“ Rechenkraft.net e. V.
Immer nur bei anderen mitrechnen, war den Vereinsmitgliedern auf Dauer jedoch zu langweilig. Deshalb startete man 2009 mit dem ersten eigenen DC-Projekt durch: RNA World. RNA deshalb, weil man „fehlende Rechenkraft für dieses wichtige Forschungsthema“ diagnostiziert hatte. „Entgegen anders lautender Annahmen sehen wir Zellen als ‚RNA-Maschinen‘, in denen Proteine im Grunde immer dieselben Standardaufgaben übernehmen. (...) Die Faszination liegt für uns also eher im noch immer weitgehend unbekannten ‚RNA-Universum‘“, erläutert Weber.
Um diese Wissenslücken zu schließen, ging es bei RNA World zunächst ganz simpel darum RNA-Familien zu identifizieren, und zwar in neu sequenzierten Genomen aller Organismen-Klassen. Keine leichte Aufgabe, weil man, so Weber, nicht nur die Primärsequenz berücksichtigen muss, sondern auch die Sekundärstruktur. Und das bedeutet mehr Rechenaufwand und notwendigerweise auch experimentelle Daten. „Die Daten stammen aus den üblichen, öffentlichen Genom-Datenbanken des EMBL-EBI (Europa) oder NCBI (USA), wobei unser Schwerpunkt bislang auf den europäischen Datenbanken lag. Bekannte RNA-Familien extrahieren wir aus der Rfam-Datenbank, die damals notorisch veraltet war (und auch heute noch ist).“
Infernale Identifikation
Identifiziert wird über das Software-Paket INFERNAL, das ursprünglich für Linux-Rechner programmiert wurde. Um das Paket auch auf weiter verbreiteten Rechnern mit Windows-Betriebssystem zum Laufen zu kriegen (besser geeignet für Citizen-Science-Projekte), hat man kurzerhand den Code umgearbeitet. Auch im Austausch mit den ursprünglichen Entwicklern Sean Eddy und Eric Nawrocki, damals am HHMI Janelia Farm Research Campus in den USA.
„Vom Arbeitsprinzip her nimmt RNA World/INFERNAL sich also das Erbgut eines neu sequenzierten Organismus vor und kartiert in diesem über ‚stochastic context-free grammars‘ auf der Basis eines sogenannten Kovarianz-Ansatzes systematisch alle bekannten RNA-Familien. Darüber hinaus ermöglicht RNA World z. B. auf Basis experimenteller Laborergebnisse das Erstellen eigener RNA-Kovarianz-Modelle und die sukzessive Suche nach homologen Familienmitgliedern für diese in neuen Genom-Datensätzen“, erklärt Weber.
Fast 20.000 Rechner von mehr als 6.000 Teilnehmern rechnen bei RNA World mit. Dabei kann sich eine Rechenaufgabe in Ausnahmefällen auch schon mal ein ganzes Jahr hinziehen. Das zeugt von Durchhaltevermögen der vielen beteiligten Bürger-Wissenschaftler. „Wir wollten zeigen, dass eine Gemeinschaft von wissenschaftlich interessierten Laien in der Lage ist, auch in reiner Freizeitarbeit, professionellen Bioinformatik-Einrichtungen das Wasser reichen zu können“. Und das ist geglückt. Grundlage dafür ist eine gute Kommunikation zwischen beiden Seiten, meint Weber.
Momentan ist RNA World in einer Übergangsphase, ergänzt der Chemiker. Letzte, aufwendigere Rechenaufgaben werden abgeschlossen und das Software-System danach generalüberholt und mit neuen Anwendungen ausgestattet, die z. B. Simulationen zu Molecular Docking, Virtual Screening und Molecular Dynamics erlauben. „Natürlich alles auf Basis von frei zugänglicher, quelloffener Software“, fügt Weber hinzu.
Fix veröffentlicht
Auch soll daran gearbeitet werden, dass Ergebnisse schneller einsortiert, aufbereitet und somit schneller veröffentlicht werden können. „Man unterschätzt als Anfänger leicht, was da an Daten auf einen zukommt. Es ist uns mehrfach passiert, dass unabhängige universitäre Forschergruppen Erkenntnisse, die wir mit RNA World gewonnen hatten, vor uns publizierten.“
Möglich ist aber auch eine Zusammenarbeit, bei der Forscher den RNA-World-Supercomputer mit ihren eigenen Daten füttern. Weber: „Bei uns kann man über ein einfaches Webformular die gewünschte Applikation auswählen, seine Projektdateien hochladen und bekommt die Ergebnisse nach Fertigstellung als Download präsentiert. Mir ist kein aktives ‚Distributed-Computing‘-System bekannt, das diesen Ansatz bietet.“ Einzige Voraussetzung ist eine Registrierung und die bisherige Teilnahme an wenigstens ein paar Rechenaufgaben auf RNA World. Wer Interesse hat, kann sich gern bei Rechenkraft.net e. V. melden, auch mit Vorschlägen für Software, die in RNA World integriert werden könnte.
Inzwischen ist aus dem Verein für DC-Begeisterte sogar ein ganzer tecSPACE geworden, eine offene Werkstatt mit 3D-Drucker, Lasercutter/-engraver, VirtualReality-Arbeitsumgebung, Oszilloskop, Labornetzteil, Lötstation, Mikroskop und CNC-Fräse, die zur freien Verfügung stehen für alle Menschen mit guten Ideen. „Wir möchten in der Bioinformatik einer OpenPharma-Idee Vortrieb leisten, die wissbegierige Menschen in die Lage versetzt, eigene Forschungsprojekte zu verfolgen“, sagt Weber. „Grundsätzlich geht es uns auch darum zu zeigen, dass altruistisches Handeln einer kooperativ agierenden Gemeinschaft durchaus leistungsstärker sein kann als Konkurrenz-basierte, kommerzielle Serviceleistungen.“
Kathleen Gransalke
Foto: Rechenkraft.net e. V.