Wenn Proteindesigner halluzinieren
Genau danach strebt die Arbeitsgruppe um Strukturvorhersage-Guru David Baker an der University of Washington in Seattle – indem sie Proteine halluzinieren. Sie erträumen Proteine und bilden sich deren Strukturen ein? Was esoterisch klingt, ist inspiriert durch DeepDream: Dieses neuronale Netzwerk aus dem Hause Google ist darauf trainiert, bestimmte Muster wie etwa menschliche Gesichter in Bildern zu erkennen, und spürt ihnen auch dort nach, wo sie nicht existieren. Unterwegs verändert es dabei ein Eingabebild so lange, bis es tatsächlich etwas enthält, was das Neuronennetz als ideales Gesicht erachtet. Seine psychedelischen und manchmal verstörend wirkenden Ergebnisse (einfach mal „deep dream“ in der Google-Bildersuche eingeben) erinnern an das Erkennen von Formen in Wolken oder am Horizont – eben ganz so, als ob DeepDream halluziniert hätte.
Lassen sich Fotos und Gesichter durch Peptidsequenzen und 3D-Strukturen ersetzen? Um dieser Frage nachzugehen, ließ Bakers Arbeitsgruppe ihr zur Proteinstrukturvorhersage trainiertes Deep-Learning-Netzwerk trRosetta die Konformationen von 2.000 Zufallssequenzen vorhersagen. Natürlich waren alle Abstände zwischen deren Aminosäure-Resten zufallsverteilt. Schließlich falten Zufallspeptide nicht in definierte 3D-Strukturen. Daraufhin mutierten die Proteindesigner mit jedem trRosetta-Durchlauf eine zufällig ausgewählte Aminosäure-Position, behielten die Substitution aber nur bei, wenn trRosetta der Peptidsequenz eine definiertere Struktur bescheinigte. Über tausende Durchläufe zeichneten sich in den ursprünglich verschwommenen 2D-Distanzmatrizen der Zufallssequenzen tatsächlich mehr und mehr Strukturmerkmale ab. Immer mehr Aminosäure-Reste rückten in räumliche Nähe. Nach bis zu 20.000 Durchläufen ähnelten die Distanzmatrizen denen von wohlgeordneten nativen Polypeptiden.
Gut und schlecht
Hatte trRosetta natürliche Proteine halluziniert? Die Antwort ist nein. Die De-novo-Strukturen umfassten zwar 27 Topologien aller natürlichen Proteinklassen – von reinen α-helikalen über gemischte α-/β- bis hin zu reinen β-Strang-Proteinen – , ähnelten nativen Strukturen aber meist wenig. Einerseits ist das schlecht. Denn oft fehlten den De-novo-Proteinen flexible Abschnitte ohne Sekundärstruktur-Elemente – also jene konformationelle Dynamik, die eine enzymatische Funktion erst ermöglicht. Andererseits ist das gut. Schließlich hat die natürliche Evolution nur einen kleinen Teil der Proteinlandschaft erkundet. Medizinisch und biotechnologisch nützliche Funktionalitäten finden sich vielleicht gerade in „unnatürlichen“ Strukturbereichen.
Entschlossen exprimierten die US-Proteindesigner deshalb 129 ihrer evolvierten Peptidsequenzen in E. coli. Unter ihnen lagen 27 Polypeptide laut Größenausschluss-Chromatographie monomer vor und zeigten laut Circulardichroismus (CD)-Spektren die von trRosetta vorhergesagten Sekundärstrukturen. Für drei Proteine löste die Arbeitsgruppe daraufhin mittels Röntgenkristallographie und Kernspinresonanzspektroskopie (NMR) die 3D-Struktur. Tatsächlich spiegelten sie trRosettas halluzinierte Strukturmodelle wider. Der Machbarkeitsnachweis war erbracht: Invertierte Deep-Learning-Netzwerke, die ursprünglich auf die Vorhersage von Struktur aus Sequenz trainiert wurden, können der Natur unbekannte Proteine designen (Nature, 600(7889):547-552).
Simultane Optimierung
Doch falten sie Polypeptide nicht nur irgendwie, sondern erschaffen auch funktionale Konformationen – also etwa aktive Zentren von Enzymen oder Bindungsstellen für Effektormoleküle? Zur Beantwortung dieser Frage rüstete Bakers Arbeitsgruppe auf. Sie ersetzten trRosetta, das nur die Orientierungen von und Distanzen zwischen Aminosäure-Resten berechnet, durch RoseTTAFold, das explizit die 3D-Koordinaten von Proteinstrukturen modelliert. Zusätzlich brachte RoseTTAFold einen weiteren Vorteil mit sich: Während seines Trainings hatte es gelernt, nicht nur Strukturen vorherzusagen, sondern auch fehlende Sequenzinformation zu ergänzen. Indem das Neuronennetz beides simultan optimierte, schaffte es Bakers Team, spezifische Strukturmotive stabil in Proteingerüsten zu halluzinieren: von Eisen-, Calcium- oder Zink-Bindungsstellen über Fluchtmutanten unterbindende Analoga für den humanen ACE2-Rezeptor, den SARS-CoV-2 bekanntlich als Eintrittspforte nutzt, bis hin zu spezifischen Immunogenen des respiratorischen Synzytial-Virus (RSV) (BioRxiv, DOI: 10.1101/2021. 11.10.468128). Bestätigung aus Nasslaboren, dass die Designerproteine halten, was sie versprechen, stehen allerdings noch aus.
Was Bakers Arbeitsgruppe nicht davon abhielt, die Grenzen des Möglichen weiter auszuloten. Für ihren jüngsten Preprint halluzinierten sie Homo-Oligomere. Drei Viertel ihrer insgesamt 96 Designer-Homomere erwiesen sich als exprimierbar. Für ein Fünftel bestätigten CD-Spektren und Größenausschluss-Chromatographie gekoppelt an Mehrwinkellichtstreuung (SEC-MALS) die vorhergesagten Sekundärstruktur-Anteile sowie eine stabile Oligomerisierung aus zwei bis vier Polypeptidketten. Zur Überraschung der Proteindesigner sah keines von sieben röntgenkristallographisch aufgeklärten De-novo-Homomeren wie das andere aus. Ihre 3D-Strukturen reichten von α-/β-Homodimeren, die gemeinsam zu einem zentralen β-Faltblatt beitragen, bis hin zu komplett α-helikalen Tri- und Tetrameren, deren äußere α-Helices einen hydrophoben Kern innerer α-Helices umgeben. Vor allem ähnelten sie natürlichen Oligomeren nur geringfügig. Erneut regurgitierte das neuronale Netz also nicht nur Trainingsdaten, sondern designte neuartige Proteinkonformationen.
Komplexe Träume
Woraufhin die Proteindesigner die Komplexität ihrer halluzinierten Polypeptide noch weiter erhöhte und ringförmige Homo-Oligomere aus bis zu 1.800 Aminosäure-Resten und 42 Untereinheiten kreierten. Drei der Riesenringe analysierten sie mittels Einzelpartikel-Kryoelektronenmikroskopie: Alle wiesen Durchmesser zwischen 85 und 100 Ångström auf und verfügten über ein inneres kontinuierliches β-Faltblatt umgeben von äußeren α-Helices. Damit endete aber ihre Ähnlichkeit untereinander. Ein Ringoligomer aus 15 Untereinheiten (C15) bestand aus Homo-Pentameren, während sich seine C18- und C33-Vettern aus Homo-Hexameren beziehungsweise Homo-Trimeren zusammensetzten.
Aktuell sind Bakers Designerproteine damit die größten cyklischen Homo-Oligomere, die jemals erfolgreich am Reißbrett erschaffen werden konnten. Das größte natürliche und experimentell aufgeklärte Ringoligomer besteht mit einem Molekulargewicht von zehn Megadalton aus 39 Untereinheiten (Proc Jpn Acad Ser B Phys Biol Sci, 88(8):416-33). Bakers Arbeitsgruppe ist Mutter Natur also knapp auf den Fersen. Wo liegen wohl die Grenzen der Proteinvielfalt, die Deep-Learning-Netzwerke kreieren können? Und welche Funktionen könnten halluzinierte Proteine in Zukunft erfüllen – und welche nicht?
Henrik Müller
Wicky B. et al. (2022): Hallucinating protein assemblies. BioRxiv, DOI: 10.1101/2022.06.09.493773
Bild: Pixabay/CDD20 (Träumer) & Wang J. et al.
Weitere Artikel zur Proteinstrukturvorhersage und AlphaFold
- Im Kielwasser von AlphaFold
Die Zeiten, in denen Proteinstrukturen der Natur in mühsamer Handarbeit über Monate abgetrotzt werden mussten, sind dank der computerbasierten Proteinstrukturvorhersage vorüber. Endlich kann sich die Strukturbiologie auf Dynamik und Funktion von Proteinkomplexen fokussieren. Es gibt aber noch ein paar Abstriche.
- Excuse me, do you speak Protein?
Sprachbegabte neuronale Netze können dabei helfen, funktionale Aminosäureketten de novo zu generieren. Ein Anwendungsbeispiel aus Bayreuth.
- „DeepMind hat seinen Fokus auf die Verlässlichkeit der Vorhersage von Proteinstrukturen gelegt“
Martin Steinegger, Assistant Professor für Computational Biology an Seouls National University, erklärt, was AlphaFold2 in der Strukturbiologie revolutioniert und wie sich Strukturmodelle mit seiner Erweiterung ColabFold auch auf dem eigenen Laptop vorhersagen lassen.