Editorial

Vorstoß in unbekannte Sequenzräume - Computer-assistiertes Proteindesign

Henrik Müller, Laborjournal 09/2023


(08.09.2023) Eine Proteinsequenz zu entwerfen, die sich in eine funktionale 3D-Konformation faltet, wird als inverses Proteinfaltungs-Problem bezeichnet. Deep-Learning-Verfahren sind drauf und dran, es zu lösen. Noch ist es aber nicht so weit.

Sie benötigen ein Enzym mit einer bestimmten Funktion, können in der Literatur aber nichts Passendes finden? Das ist seit einigen Monaten keine Hürde mehr: Designen Sie es am Computer einfach selbst! Die natürliche Evolution brauchte drei Milliarden Jahre, um einige Tausend Proteinfamilien zu „erfinden“. Seit etwa 65 Jahren können Röntgenkristallographie und später Kernspinresonanzspektroskopie (NMR) sowie Elektronenmikroskopie (EM) deren 3D-Strukturen aufklären. Gegenwärtig umfasst die Proteindatenbank (PDB) 208.000 experimentell gelöste Strukturen. Ihre Datenfülle bildete ab 2017 die Grundlage für das Training von Deep-Learning-Netzwerken wie AlphaFold2, RoseTTAFold, ESMFold und OmegaFold, die Proteinstrukturen in mittlerweile experimenteller Genauigkeit prophezeien. Dafür lernen sie einen wichtigen Teil der Peptidmechanik, korrelieren die Sequenzen von Proteinen mit deren Strukturen und sagen Letztere anhand von Ersteren voraus.

Allein AlphaFold2s Datenbank (alphafold.ebi.ac.uk) umfasst über 200 Millionen Strukturmodelle. ESMFold fügte im November 2022 weitere 617 Millionen Modelle für metagenomische Proteine hinzu. Was maschinelle Lernalgorithmen noch so können, haben wir im Februar-Heft (LJ 1-2/2023, Link) im Artikel „Peptidmechanik lernende Proteinsprachmodelle“ erörtert.

CPU mit Proteinstruktur
Illustr.: Baker Lab

Für computergestütztes Proteindesign lautet die entscheidende Frage: Können die Deep-Learning-Netzwerke auch „rückwärts“ durchlaufen werden, um für eine gewünschte 3D-Konformation die passende Sequenz zu finden? Prinzipiell lautet die Antwort ja, doch ganz so einfach ist es dann doch nicht.

Alternde Goldstandard

Der Aufschwung des computergestützten Proteindesigns im letzten Jahrzehnt beruht größtenteils auf dem Rosetta-Softwarepaket aus dem Labor von David Baker am Institute for Protein Design der University of Washington. Ohne Übertreibung ist Rosetta der Goldstandard, der an über hundert Universitäten weiterentwickelt wird. Entsprechend bietet es eine breite Palette von Werkzeugen an, um biologische Makromoleküle und deren Komplexe zu modellieren und zu analysieren: Von ihrer Ab-initio-Strukturvorhersage über Docking Tools für Proteine und ihre Liganden bis hin zur Verwendung von NMR-, EM-, Röntgen- und anderen experimentellen Daten, um Modelle zu verbessern.

Rosettas Grundkonzept ist schnell zusammengefasst: Für eine theoretische Bindungstasche, Kontaktfläche oder aktive Stelle eines Enzyms schlägt es zunächst eine 3D-Rückgratstruktur vor und berechnet dann eine Peptidsequenz, deren Seitenketten sich in die gewünschte Konformation falten und sie stabilisieren. Dafür minimiert es eine komplexe Energiefunktion, die die intra- und intermolekularen Wechselwirkungen zwischen Peptiden widerspiegelt – also von van-der-Waals-Kräften, Elektrostatik, Wasserstoffbrücken und Solvatations-Energien bis hin zu Bindungstorsionen und deren geometrischen Zwängen (rosettacommons.org). Oder in anderen Worten: Rosetta sucht nach der Kombination von Aminosäureresten, deren Konformation die niedrigste Energie für eine gewünschte 3D-Struktur aufweist.

Den Stand der Technik fasst Florian Praetorius zusammen, der als Postdoktorand in Bakers Arbeitsgruppe Proteine kreiert, die auf einen externen Stimulus hin zwischen Konformationen wechseln: „Strukturen zu generieren und zu ihnen passende Sequenzen zu finden, ist mit Deep-Learning-basierten Methoden einfach. Deshalb ist es heutzutage kein Problem mehr, ein lösliches Protein zu designen. Unser Wissen, wie Struktur mit Funktion korreliert, hinkt dagegen hinterher. Proteine herzustellen, die auch die gewünschte Funktion aufweisen, ist noch immer eine Herausforderung.“

Denn die Größe und geometrische Komplexität funktionaler Proteine schränkt die Nützlichkeit Physik-basierter Ansätze wie Rosetta ein. Werden Designentwürfe exprimiert, fügen sie sich aufgrund von Fehlfaltungen oder suboptimalen Pufferbedingungen oft nicht zur gewünschten Architektur zusammen und aggregieren. So liegt auch Rosettas Erfolgsquote in der Regel unter zehn Prozent. Je nach Komplexität des Wunschproteins müssen oft Hunderte bis Tausende Versuchspläne im Nasslabor geprüft werden.

Maschinelle Algorithmen der Mustererkennung krempeln diese Herangehensweise um. Mit ihnen entfallen komplexe physikalische Überlegungen mitsamt ihren Energiefunktionen. Entsprechend entwickelte die Bioinformatik-Community in den letzten Jahren eine Vielzahl Deep-Learning-basierter Designmethoden.

Aus dem 120-köpfigen Labor von David Baker in Seattle stammt beispielsweise die ProteinMPNN-Plattform. Für eine gewünschte Proteinfaltung berechnet sie die Aminosäuresequenzen, die dessen Rückgratstruktur erzeugen. Wie gut funktioniert es im Vergleich zum herkömmlichen Rosetta? Das lässt sich anhand nativer Proteine abschätzen, deren Sequenz und Struktur bekannt sind. Angesetzt auf 690 Monomere, 732 Homomere und 98 Heteromere der Proteindatenbank schlug Rosetta zu 33 Prozent deren native Sequenzen vor. ProteinMPNN schaffte 52 Prozent (Science, doi.org/gqtj2d). Seine Vorhersagequalität hängt allerdings stark von der Aminosäureposition ab. Für starre Positionen im Proteininneren schlägt ProteinMPNN zu über 90 Prozent die nativen Aminosäurereste vor. Auf der Proteinoberfläche erachtet es native Sequenzen nur zu 35 Prozent für angemessen.

Assimilierte Sequenzen

Warum arbeitet es so viel zuverlässiger als Rosetta? Weil Deep-Learning-Netzwerke koevolutionäre Informationen aus der Proteinsequenzdatenbank assimilieren und deren interne Muster in einer Tiefe erfassen, die physikalischen Ansätzen verwehrt bleibt. Schon AlphaFolds Erfolg in der Strukturvorhersage war auf koevolutionäre Informationen in Form multipler Sequenz-Alignments (MSA) zurückzuführen. Details dazu finden Sie in LJ 4/2022 ab Seite 46 (laborjournal.de/epaper/LJ_22_04.pdf).

Ein kurzer Blick unter ProteinMPNNs Motorhaube: MPNN steht für Message Passing Neural Network. Es besteht neben Ein- und Ausgabeschichten aus 128 versteckten Schichten, die Proteinsequenzen autoregressiv vorhersagen, indem sie neben Dihedral-Winkeln vor allem die Distanzen zwischen Cα-Atomen und die Orientierungen der Cα-Cα-Cα-Ebenen optimieren – und zwar vor allem diejenigen, die in der Sequenz weit entfernt sind, im 3D-Raum aber nah beieinander liegen. Da ProteinMPNN Sequenzen sowohl linear vom N- zum C-Terminus als auch von einer Zufallsposition aus vorhersagen kann, lassen sich Teilsequenzen fixieren. So können auch Proteine mit Tandem-Wiederholungen und symmetrische Proteinkomplexe entworfen werden. Das könnte sich beispielsweise zum Design Symmetrie-angepasster Antikörper gegen multimere virale Glykoproteine wie etwa dem Spike-Protein von SARS-CoV2 als nützlich erweisen. Einhundert Aminosäurereste berechnet ProteinMPNN übrigens in 1,2 Sekunden. Rosetta braucht dafür 259 Sekunden.

Realitätscheck

Die ultimative Belastungsprobe einer jeden Proteindesign-Methode ist es natürlich zu überprüfen, ob ihre Sequenzentwürfe in E. coli exprimierbar sind und sich in die gewünschten Strukturen falten. Schließlich ändert ein einzelner falscher Aminosäurerest die Gesamtsequenz nur marginal, kann aber dessen Faltung blockieren. Wie schneidet ProteinMPNN ab? Von 96 Sequenzvorschlägen für Proteinfaltungen, an denen Rosetta zuvor verzweifelt war, erwiesen sich 73 als löslich in E. coli exprimierbar. Unter ihnen zeigten 50 in Größenausschluss-Chromatogrammen den vorhergesagten monomeren oder oligomeren Zustand und in Zirkulardichroismus (CD)-Spektren die vorhergesagten Sekundärstrukturanteile. Die Kristall- und Kryo-EM-Strukturen eines 130-Reste-Monomers sowie von zehn zyklischen Homo-Oligomeren aus bis zu 1.800 Resten belegten schließlich, wie gut ProteinMPNN die Geometrie von Proteinrückgraten in Aminosäuresequenzen codiert – zumindest für Monomere und Homo-Oligomere (Science, doi.org/gq583t). Vorerst setzt Bakers Labor also seine Vorreiterrolle fort. Gegenwärtig arbeiten die US-Biochemiker daran, ProteinMPNN auf Wechselwirkungen mit Nukleinsäuren und Liganden zu erweitern.

Doch was, wenn für eine gewünschte Proteinfunktion keine Rückgratstruktur existiert, für die ProteinMPNN im nächsten Schritt eine Aminosäuresequenz finden könnte? Dann kommt RFDiffusion – ebenfalls aus dem Hause Baker – ins Spiel (Nature, doi.org/gsgbqt). Wie sein Name andeutet, liegt ihm ein generatives Diffusionsmodell zugrunde. Analog zu neuronalen Netzwerken wie DALL-E 2, das fotorealistische Bilder aus Texteingaben generiert, designt RFDiffusion Proteinrückgrate auf Basis von Molekülspezifikationen.

Auch bei RFDiffusion lohnt sich ein Blick auf das zugrundeliegende Konzept: Ähnlich dem physikalischen Prozess der Diffusion, bei dem sich eine Substanz allmählich ausbreitet, erstellt RFDiffusion für jeden Aminosäurerest immer realistischere Cα-Koordinaten und Orientierungen ihrer N-Cα-C-Ebenen, indem es sie iterativ aus Hintergrundrauschen und einer zufälligen Startverteilung verrauschter Atomkoordinaten entwickelt. Für dieses „Entrauschen“ greift es auf RoseTTAFold zurück, das darauf trainiert wurde, Proteinstrukturen zu finden (siehe LJ 4/2022 ab Seite 46 (laborjournal.de/epaper/LJ_22_04.pdf).

Ohne Weiteres generiert RFDiffusion α-, β- und gemischte α-β-Topologien. Im Gegensatz zu früheren Deep-Learning-Methoden, etwa der Halluzination von Proteinen (siehe „Die Protein-Träumer“ auf LJ online), deren Erfolgsrate sich ab 100 Aminosäureresten massiv verschlechtert, erzeugt RFDiffusion noch für 600 Aminosäurereste lange Sequenzen Proteinrückgrate, die sich in CD-Spektren als thermostabil erweisen (Nature, doi.org/gsgbqt). Natürlich nützt es dabei nichts, wenn nur Zufallsrückgrate entstehen. Sie müssen schon eine vom Nutzer vorgegebene Topologie widerspiegeln. Um RFDiffusion auf eine gewünschte Proteinfaltung zu konditionieren, kann die Software deshalb mit Teilsequenzen, physikochemischen Eigenschaften einzelner Aminosäurereste, deren Ausrichtungen, paarweisen Raumabständen oder ihren direkten 3D-Koordinaten gefüttert werden.

Wie gut funktioniert die Kombination von ProteinMPNN und RFDiffusion? In den Händen von Bakers Arbeitsgruppe stimmten die Sekundärstrukturanteile von zwei Fünfteln exprimierter TIM-Barrels mit ihren In-silico-Entwürfen überein. Unter 44 in E. coli exprimierten Proteindesigns für Metallionen koordinierende Histidin-Geometrien banden 18 Entwürfe Ni2+ mit korrekter Stöchiometrie und nano- bis mikromolaren Dissoziationskonstanten. Auch ähnelten noch 70 von 608 Designs für symmetrische Oligomere größenausschlusschromatographisch und elektronenmikroskopisch ihren Entwurfsmodellen. Sollte die Software dagegen Proteindesigns für bestimmte Enzymfunktionen ausspucken, sank die Erfolgsrate. Nur wenige Prozent der aktiven Zentren designter Enzyme stimmten mit ihren natürlichen Vorlagen überein (Nature, doi.org/gsgbqt).

Auf den ersten Blick ernüchtern diese Zahlenwerte vielleicht. Doch Praetorius relativiert: „Natürlich hängt alles von der eigenen Zielsetzung ab. Soll ein Protein nur eine bestimmte Zielstruktur binden, liegt die Erfolgsquote durchaus bei zehn bis dreißig Prozent. Dann wird man schon unter einer Handvoll Designentwürfen fündig. Bei schwierigeren Anforderungen muss man dagegen nach wie vor tausende Proteine screenen. Die Erfolgswahrscheinlichkeit liegt dann oft im Subprozentbereich.“

Besser als andere Methoden

Alena Khmelinskaia, ehemalige Postdoktorandin am Institute for Protein Design in Seattle und seit 2023 W2-Professorin für Biophysikalische Chemie an der Ludwig-Maximilians-Universität München, ergänzt: „Dennoch übertrifft die Kombination von RFDiffusion und ProteinMPNN oft alle bisherigen Methoden darin, komplexe Motive zu designen und deren Seitenketten zu positionieren.“ Wer mit ihrer Hilfe ein Protein designen möchte, macht sicher keinen Fehler.

Natürlich sind beide Netzwerke nicht die einzigen Deep-Learning-Verfahren fürs Proteindesign. Zeitgleich brachte beispielsweise Generate Biomedicines – ein US-Biotechunternehmen an der Schnittstelle von maschinellem Lernen, Biotechnik und Medizin – Chroma heraus (bioRxiv, doi.org/grc558). Ebenfalls als Diffusionsmodell konzipiert, vereint es die Funktionalitäten von ProteinMPNN und RFDiffusion. Zuerst generiert es Proteinrückgrate aus Zufallspolypeptiden. Dann erzeugt es binnen Minuten die Seitenkettenkonformationen, die in die jeweiligen Rückgratstrukturen falten – selbst für Proteinkomplexe mit mehreren Tausend Aminosäureresten. Wie schon RFDiffusion kann Chroma mit zusätzlichen Angaben wie etwa Raumabständen zwischen Aminosäureresten konditioniert werden, um den generativen Prozess auf gewünschte Proteineigenschaften zu lenken. Außerdem akzeptiert es Proteinbeschreibungen sogar per Freitext – also ähnlich wie der Bildgenerator DALL-E 2. Allerdings ist noch unklar, welche seiner Designentwürfe tatsächlich in die gewünschte Form falten. Denn im Nasslabor muss sich Chroma noch beweisen.

Ein wenig weiter ist Progen, das Proteinsequenzen für bestimmte Funktionen generiert. Mehrere seiner künstlichen Lysozyme erwiesen sich als ähnlich katalytisch effizient wie natürliche Lysozyme – bei einer Sequenzidentität von nur 31 Prozent (Nat. Biotechnol., doi.org/grsg9k). Sein Softwarepaket ist frei verfügbar: github.com/salesforce/progen.

Auch für ProteinMPNN und RFDiffusion sowie weitere AlphaFold- und Rosetta-basierte Designsoftware stehen auf der GitHub-Plattform interaktive Benutzeroberflächen zur Verfügung, die keine Installation erfordern: github.com/sokrypton/ColabDesign. Eine weit über diesen Artikel hinausgehende kuratierte Publikationsliste zum Proteindesign mittels Deep Learning findet sich unter github.com/Peldom/papers_for_protein_design_using_DL.

Feintuning genügt oft

Manchmal ist es unnötig, ein Protein von Grund auf neu zu designen. Es reicht aus zu wissen, wie einzelne Aminosäurereste es stabilisieren oder destabilisieren. In diesem Fall hilft ENDURE, eine modulare Webanwendung aus der Nachwuchsgruppe von Georg Künze, der am Institut für Wirkstoffentwicklung der Universität Leipzig Plastik abbauende Enzyme entwickelt (Front. Mol. Biosci., doi.org/kk49). Künze erklärt: „ENDURE detektiert die Wechselwirkungen zwischen Aminosäureresten im Protein und visualisiert die energetischen Beiträge von Mutationen in den verschiedenen räumlichen Schichten der Proteinstruktur auf Basis von Rosettas Energiefunktion.“ Dafür reicht ihm eine PDB-Datei der 3D-Struktur des Proteins. Steht nur eine Aminosäuresequenz zur Verfügung, sagt ENDURE dessen Raumstruktur mithilfe von Metas ESMFold voraus. „Im Endeffekt erfahren Nutzer also, wie unterschiedliche Mutationen die Stabilität eines Proteins wechselseitig beeinflussen, um dann gezielt Mutationen auswählen zu können“, fasst Künze ENDUREs Alltagsnützlichkeit zusammen. Sicher erweist es sich als wertvolles Werkzeug, wenn die vielversprechendsten Designentwürfe im Nasslabor getestet werden müssen.

Noch beruhen seine Vorhersagen allerdings auf einer statischen Proteinstrukturanalyse. Dynamische Proteinveränderungen wie etwa Schleifenumlagerungen und bestimmte Funktionen für Membranproteine sind laut Künze für die nächste Software-Version geplant. Die Webanwendung ist unter endure.kuenzelab.org frei zugänglich.

Kurzum: Das Design funktionaler Proteine ist auch mithilfe generativer Deep-Learning-Verfahren alles andere als Routine. Trotz Ausnahmen verbleiben die Erfolgschancen meist im einstelligen Prozentbereich. Ebenso wenig existiert gegenwärtig ein methodischer Goldstandard. Warum das Proteindesign dennoch Riesenschritte macht, erörtert David Baker in einem Interview auf LJ online.

Welches Designverfahren ist momentan also zu empfehlen? „Es gibt nicht länger das eine Tool, das für alles geeignet ist. Es hängt ganz von der Fragestellung und dem Design-Ziel ab“, sagt Künze. Praetorius empfiehlt: „Möglichst viel Software ausprobieren und die hauseigene Expertise nutzen!“ Und Alena Khmelinskaia ergänzt: „Die fürs eigene Projekt geeignetsten Protokolle und Deep-Learning-Verfahren frühzeitig finden – und lernen, sie den eigenen Ansprüchen gemäß zu modifizieren!“

Punkte zum Abarbeiten

Einig sind sich alle Fachexperten auch darin, woran es der Proteindesign-Community derzeit noch mangelt:

  • Funktionelle Daten: Proteinstrukturen sind nicht nur dynamisch, sondern werden auch von einer Vielzahl posttranslationaler Modifikationen beeinflusst. Gerade die Funktion von Enzymen hängt maßgeblich von diesen Faktoren ab. Für das Training von Deep-Learning-Verfahren stehen aber nur starre Kristallstrukturen und kaum experimentelle Datensätze zu konformationellen Ensembles von Proteinen und ihren Energielandschaften zur Verfügung. Folglich fällt es neuronalen Netzen schwer, zu lernen, Proteine mit mehreren Energieminima zu entwerfen. Außerdem sind die bestehenden Gen- und Proteindatenbanken auf Modellorganismen und vor allem den Menschen ausgerichtet.
  • Hochdurchsatztestung: Zwar lassen sich Designentwürfe heutzutage in silico mithilfe von AlphaFold und seinen Abkömmlingen validieren. Ihre finale Prüfung im Nasslabor per Röntgenkristallographie, Kryo-EM oder NMR bleibt aber langwierig und kostspielig. Softwareentwickler unterlassen es deshalb oft, die Qualität ihres Bioinformatik-Werkzeugs experimentell zu bestätigen.
  • Standardisierte Bewertungsverfahren: Es existieren keine Benchmark-Tests wie etwa der zweijährliche Critical Assessment of Techniques for Protein Structure Prediction (CASP)-Wettbewerb für die Strukturvorhersage, um die Eignung unterschiedlicher Deep-Learning-Verfahren und ihre Erfolgsraten für das Proteindesign miteinander zu vergleichen.

Dennoch bezweifelt niemand mehr, dass maschinelle Lernalgorithmen maßgeblich zur Zukunft des Proteindesigns beitragen werden. Ihre Nutzer werden die Wirkstoffforschung revolutionieren und die industrielle Biotechnologie nach vorn katapultieren – aber noch nicht gleich morgen.




Warum Proteine mithilfe neuronaler Netze designen?

Alle nativen Proteinsequenzen entwickelten sich aus wenigen, zufällig mutierten und gezielt selektierten Vorläufermolekülen. Entsprechend nehmen sie einen Sequenzraum ein, der nicht gleichmäßig verteilt ist, sondern in Form von Proteinfamilien vorliegt. Die restliche riesige Konformationslandschaft wurde von der Evolution nie erfasst. Sie war nie gezwungen, moderne biomedizinische und industrielle Probleme zu lösen.

Wer bisher im Labor versuchte, eine neuartige Proteinfunktionalität aufzuspüren, musste auf Methoden der gerichteten Evolution und des rationalen Protein-Engineering zurückgreifen. Sie ahmen natürliche Evolutionsprozesse mithilfe von Mutationsbibliotheken und Hochdurchsatzscreening nach und beschleunigen sie. Somit sind sie meist auf nahe Verwandte nativer Proteine beschränkt und dringen nur zögerlich in den unbekannten Sequenzraum vor.

Computergestütztes Proteindesign ist hingegen nicht auf native Proteine als Ausgangspunkte limitiert. Dadurch kann es nicht nur der Natur unbekannte Funktionalitäten erzeugen, sondern hat das Potential, Medizin und Biotechnologiebranche maßgeblich zu verändern. Gerade für die Arzneimittelentwicklung kann die Bedeutung maschineller Lernverfahren nicht überbewertet werden: Schon jetzt können Wirkstoffforscher mit ihrer Hilfe beispielsweise therapeutische Antikörper ohne mühsames Bibliotheks-Screening entwickeln (bioRxiv, doi.org/grmq7m), die Reifung von Antikörpern beschleunigen (Sci. Rep., doi.org/gkr8tc) ihre Antigenspezifität vorhersagen (Nat. Biomed. Eng., doi.org/jx2hk) oder Antibiotikaresistenzen und Enzymaktivitäten evolvieren (Nat. Biotechnol., doi.org/j8qb).