Editorial

Proteindesign mit gerichteter Evolution und künstlicher Intelligenz – Aufbruchstimmung in der Proteinarchitektur

Angela Magin, Laborjournal 09/2023


(08.09.2023) An künstlichen Proteinen mit neuen Eigenschaften versucht sich die Biowissenschaft schon seit vier Jahrzehnten. Mit gerichteter Evolution und rationalen Techniken ist sie dabei ein gutes Stück vorangekommen. Zum endgültigen Durchbruch dürften ihr aber maschinelles Lernen und Sprachmodelle verhelfen.

Proteine sind die Träger der Erbinformation – das war die Annahme, bevor Avery, MacLeod und McCarty 1944 diese Hypothese mit ihrem Experiment zur Transformation von Bakterien widerlegten. Dass stattdessen DNA für die Informationsweitergabe verantwortlich sein sollte, war für viele Wissenschaftler schwer zu schlucken, erschien DNA gegenüber der Vielfalt der Proteine doch vergleichsweise simpel.

Genau dies erwies sich jedoch als Glücksfall für die Forschung: DNA-Sequenzierungen dauern heute nur noch Stunden. Kommerzielle Anbieter synthetisieren Nukleinsäuren schnell und preisgünstig – und dank des genetischen Codes wissen wir, welche Aminosäuresequenz am Ende herauskommt. Ob das erzeugte Protein allerdings die gewünschten Eigenschaften hat, steht auf einem anderen Blatt.

An diesem Punkt setzt das Proteindesign an, das schon in den Achtziger- und Neunzigerjahren auch in Deutschland seinen Anfang nahm. Arne Skerra, Ordinarius am Lehrstuhl für Biologische Chemie der Technischen Universität München, begegnete dem Proteindesign zum ersten Mal in seiner Doktorarbeit am Genzentrum der Ludwig-Maximilians-Universität München: „Das Ziel war, Proteine gezielt zu verändern und dabei einerseits etwas zu lernen über Struktur-Funktions-Prinzipien, aber andererseits auch neue Eigenschaften zu kreieren“, erinnert er sich.

Symbolbild Proteindesign
Illustr.: Jose-Luis Olivares/MIT

In Andreas Plückthuns Labor beschäftigte sich Skerra zunächst mit Antikörpern und deren gezielter Modifikation. Mit seiner eigenen Gruppe gelang es ihm einige Jahre später, neue Proteine zu designen, die die Grundstruktur des Lipocalins mit antikörperähnlichen Bindungseigenschaften vereinen. Acht dieser sogenannten Anticaline werden bereits in klinischen Studien an Asthma-Patienten getestet.

1991 stellten Skerra und einige Kollegen einen DFG-Antrag, bei dem der Begriff „Proteindesign“ schon im Titel stand, 1994 gründete er in der Gesellschaft für Biochemie und Molekularbiologie (GBM) die Studiengruppe „Protein Engineering und Design“.

Zu dieser Zeit befassten sich in Deutschland nur wenige Arbeitsgruppen mit dem Thema. „In diesem DFG-Schwerpunktprogramm waren vielleicht zehn bis fünfzehn maßgebliche Wissenschaftler dabei, von denen aber letztlich nur die Hälfte aktiv an Protein Engineering gearbeitet hat. Andere beschäftigten sich hauptsächlich mit Röntgenstrukturanalyse oder NMR“, berichtet Skerra. Damals war die Idee ganz neu, das gedankliche Konzept der organischen Chemie auf Proteine zu übertragen, also ausgehend von einem Grundkörper Seitenketten auszutauschen. Die Gentechnik steckte noch in den Kinderschuhen. Künstliche DNA-Sequenzen oder synthetische Gene, heute mal eben schnell bestellt, erforderten monate- oder jahrelange Vorarbeiten. Auch die Daten zu Proteinstrukturen waren rar: „Zu Beginn meiner Doktorarbeit 1986 hatte die Proteindatenbank etwa 200 Einträge“, erzählt Skerra. Inzwischen enthält sie rund 208.700 Strukturen (www.rcsb.org, Stand 18.08.2023).

Hilfe von Strukturdaten

Wie damals helfen grafische Darstellungen auch heute, den Zusammenhang zwischen Struktur und Funktion von Proteinen zu verstehen. NMR-Spektroskopie und Kryoelektronenmikroskopie ergänzen die klassische Röntgenkristallographie. Bei Detailfragen, etwa zur Dynamik, setzen die Forschenden eher die NMR ein; mithilfe der Kryoelektronenmikroskopie lassen sich dagegen größere Komplexe aufklären, sagt Skerra: „Dabei greift man oft auf Strukturen der kleineren Komponenten zurück, die man schon aus der Röntgenkristallographie kennt und die man dann hinein modelliert.“ Vor allem zu Feinheiten wie Wechselwirkungen bei der Ligandenbindung liefere diese Herangehensweise die präziseren Informationen.

Strukturdaten dienen auch als wichtige Grundlage für das computerassistierte Proteindesign. Dessen Ursprung liegt ebenfalls schon eine Weile zurück: Skerra erinnert sich an den ersten Kurs zum Proteindesign am Computer, den Chris Sander 1996 am EMBL in Heidelberg leitete. Die Programme, mit denen sich der Austausch von Aminosäuren modellieren ließ, waren damals ganz neu. Und ihre Möglichkeiten wuchsen mit der Anzahl bekannter Proteinstrukturen ebenso wie mit der Weiterentwicklung in den Computerwissenschaften. David Bakers Institut an der University of Washington war und ist einer der Hotspots, was die Softwareentwicklung im Proteindesign angeht.

Arne Skerra, Gustav Oberdorfer, Clemens Mayer
Auf Arne Skerras (v.l.), Gustav Oberdorfers und Clemens Mayers Wunschzettel für die Zukunft des Proteindesigns ganz oben stehen erweiterte enzymatische Tests, schnellere Proteinsynthese-Techniken sowie verbesserte Hochdurchsatz-Screenings. Fotos: Magdalena Jobbs/TUM, TU Graz, Universität Groningen

Nicht so einfach wie gedacht

Gustav Oberdorfer von der TU Graz kam 2010 während seiner Doktorarbeit das erste Mal in Bakers Labor. „Meine Vorstellung war, dass ich dem Computer das Problem darlege, Enter drücke und dann kommt eine Woche später etwas heraus, das zu testen wäre. Aber tatsächlich war das noch sehr empirisch basiert. Man hat sich die im Computer generierten Vorhersagen angeschaut und ganz hoch kuratiert aufgrund der eigenen chemischen Intuition oder dem unterliegenden Verständnis des chemischen Prozesses, und so die Ergebnisse verfeinert – im Wesentlichen mit der Hand und dem damals ‚most powerful processor‘, den es gegeben hat.“ Er tippt sich an die Stirn und lacht.

Seither habe der Einfluss von Machine Learning stark zugenommen. Die rationale Optimierung bekannter Strukturen mithilfe von Software Tools wie dem aus David Bakers Labor stammenden Rosetta, werde zunehmend abgelöst durch KI-basierte Systeme. 2018 revolutionierte AlphaFold die Strukturvorhersage: Das Programm dominierte beim 13. Critical-Assessment-of-Structure-Prediction (CASP)-Wettbewerb und zog den Fokus auf die Nutzung von KI für das Proteindesign.

AlphaFold hat längst Konkurrenz bekommen: ESMFold wurde anhand von Sequenzen auf Strukturvorhersage trainiert – heute wird es auch für das Proteidesign eingesetzt. Andere Systeme basieren auf sogenannten Transformern wie ChatGPT oder Stable Diffusion. „Meine Annahme ist, dass es da eine zugrundeliegende Grammatik gibt. Wenn ich mir genug Volllängensequenzen anschaue, die für eine bestimmte Entität codieren, dann muss ich implizit die Grammatik gelernt haben und kann damit dann sinnvolle Sätze konstruieren, ohne dass ich je eine 3D-Struktur gesehen habe“, sagt Oberdorfer.

Mit diesen Möglichkeiten sei Proteindesign heute auch ohne detailliertes Wissen über Interaktionen innerhalb von Proteinen anwendbar und in der Mitte der Biowissenschaften angekommen. Natürlich seien nach wie vor Feedback Loops entscheidend, denn meist funktionieren die ersten Designs nicht so gut. Daher findet die Arbeit sowohl am Computer als auch im Labor statt. Bessere Charakterisierung und Wiederholung liefern das gewünschte Ergebnis. Dank günstiger DNA-Synthese ist es mittlerweile möglich, für relativ kleines Geld mehrere tausend Sequenzen zu testen, wo es früher nur für eine Handvoll reichte.

Die Fragestellungen, an denen gearbeitet wird, gehen laut Oberdorfer weg von den methodengetriebenen Ansätzen hin zur Anwendung: „Die Methodik ist gut genug und die DNA-Synthese ist billig – wir probieren jetzt, echte Probleme zu lösen und nicht Beispielprobleme am Computer zu verfeinern.“ Die reine Methodenentwicklung wird seiner Ansicht nach künftig wenige hochspezialisierte Labore beschäftigen. Unabhängig davon glaubt Oberdorfer: „Es wird meiner Meinung nach immer einen Platz geben für klassische Molecular-Mechanics-Simulationen, sei es um in der Retrospektive etwas zu interpretieren, was man in der Natur sieht, oder um neue Dinge zu modellieren, für die es noch keine neuronalen Netze oder Algorithmen gibt. Aber das Brot-und-Butter-Modellieren von Proteinstrukturen ist von Machine Learning übernommen worden, und das wird immer besser werden.“

In seiner eigenen Arbeitsgruppe beschäftigt sich Oberdorfer zum Beispiel mit de novo designten Proteinen, die an ein kleines fluoreszierendes organisches Molekül binden und dieses vor dem Ausbleichen bewahren. Ziel der Entwicklung ist es, mit diesen Konstrukten die sogenannte Downconverting-Filterschicht in LED-Lampen zu ersetzen, die bislang aus seltenen Erden besteht und durch Verschiebung der Wellenlängen aus blauem Licht weißes macht. „Das ist der erste Sprung von unserem Labor zu einem ganz konkreten Anwendungsbeispiel, wie man Proteindesign verwenden kann.“ Die idealisierte Struktur von de novo designten Proteinen sorge für die nötige Stabilität: „Mehr als 90 Prozent der Aminosäuresequenzen, die wir herstellen, haben eine Stabilität von über 95 Grad Celsius in Wasser.“ Eine LED-Lampe ist eine unerwartete Umgebung für ein Protein – und genau das reizt Oberdorfer. Er will sich künftig weiterhin auf die Interaktion von Proteinen mit anderen Molekülen konzentrieren und darauf, Proteine aus dem physiologischen Kontext heraus- und in neue Umgebungen hineinzubringen.

Eingebauter Katalysator

An der Universität Groningen beschäftigt sich Clemens Mayer ebenfalls damit, Proteine mit ungewöhnlichen Eigenschaften zu erzeugen: „Wenn es schwierig ist, eine Reaktion X mit einem Protein durchzuführen: Ist es dann nicht besser, wir nehmen einen Katalysator, der diese Reaktion beschleunigt, bauen ihn in das Protein ein und verändern das Protein, um die Katalyse zu verbessern?“, erklärt Mayer seinen Ansatz. Mithilfe von Metallkatalysatoren entstehen so artifizielle Metalloenzyme.

Die Schwierigkeit ist, mit designten Enzymen eine hohe katalytische Aktivität zu erzielen. Da hilft auch computerassistiertes Proteindesign nicht weiter, betont Mayer: „Unser Verständnis von Enzymkatalyse ist auf einem quantitativen Level quasi nicht vorhanden. Qualitativ natürlich – aktives Zentrum, Wasserstoffbrückenakzeptor oder -donor, katalytische Reste – aber ob eine Änderung von 0,1 Angström links oder rechts das Enzym dann zehnmal besser oder zehnmal schlechter macht, wissen wir nicht.“

Bislang sei der erfolgreichste Ansatz, eine gut bekannte Beispielreaktion wie die Diels-Alder-Reaktion zu analysieren und aus den Daten des Übergangszustandes das Enzym mit der Konfiguration zu berechnen, das diesen am besten stabilisiert. „Und die Antwort ist: Ja, das funktioniert – es funktioniert nicht gut, aber es funktioniert.“ Der Turnover ist sehr langsam, statt „pro Sekunde“ müsse man hier eher mit „pro Stunde“ rechnen.

In der Kristallstruktur dieser Enzyme zeige sich der Unterschied zwischen Theorie und Praxis: „Was wir finden, ist, dass die ganzen aktiven Taschen, die wir berechnen, oft komplett anders ausschauen.“ Deswegen verwendet er seit seiner Promotion, die er von 2009 bis 2014 in Donald Hilverts Labor an der ETH Zürich anfertigte, die gerichtete Evolution für das Proteindesign. Denn die erzeugt Proteine, die funktionieren, und bügelt Fehler bei der Konstruktion aus. „Evolutionäre Techniken werden immer relevant bleiben für die Biotechnologie.“

Die Technik der gerichteten Evolution wurde maßgeblich von Frances Arnold entwickelt, die dafür 2018 den Nobelpreis für Chemie erhielt. Sie teilte ihn mit den beiden Erfindern des Phagen-Displays George Smith und Gregory Winter. Seit Mitte der Achtzigerjahre werden diese Techniken im Protein Engineering eingesetzt. Essentiell dafür sind die Erzeugung von Diversität und die Suche nach Proteinvarianten, die den Anforderungen am besten entsprechen.

Langwierige Evolution

Letzteres ist vor allem bei Enzymen eine frustrierende Aufgabe – vor allem, wenn im Labor kein Roboter vorhanden ist, um die Messung der Enzymaktivität zu automatisieren. Dann dauert eine Runde gerichtete Evolution auch mal einen ganzen Monat, erklärt Mayer. Er setzt daher darauf, die fragliche Reaktion für E. coli „interessant“ zu machen. Dafür wählt er Moleküle mit ähnlicher Struktur wie die des Zielmoleküls – zum Beispiel Pestizide, die das Enzym abbauen soll – und koppelt diese mit einer Aminosäure-ähnlichen Funktionalität, sodass sie zu nichtnatürlichen Aminosäuren umgebaut werden können. Über StoppCodon-Suppression sorgt er dafür, dass diese nichtkanonischen Aminosäuren wiederum in Antibiotikaresistenz-Marker integriert werden.

Die Selektion läuft in vivo ab: Je effizienter der Umbau des Zielmoleküls zur Aminosäure verläuft, desto stärker ist die Resistenz, auf die Mayer in kontinuierlichen Kultursystemen selektiert. „Das baut auf sehr etablierten Methoden wie Antibiotika-Resistenz und StoppCodon-Suppression auf. Der Rest ist dann: Wie kann man Enzyme dazu bringen, eine interessante Reaktion zu katalysieren und dabei eine nichtnatürliche Aminosäure zu erzeugen?“

Automatische Selektion

Vier industriell relevante Enzymklassen hat sein Labor bereits bearbeitet. Die Selektion innerhalb großer Bibliotheken funktioniert damit quasi von alleine, denn die Evolution sorgt dafür, dass nur die Bakterien mit den besten Varianten bei steigender Antibiotika-Konzentration hochwachsen: „Survival of the fittest ist ein starkes Argument.“ Die Fitness Landschaft der so neu generierten Enzyme könne dann zu einem besseren Verständnis der Enzymkatalyse beitragen.

In Zukunft, so die Überzeugung von Mayer, werden immer mehr Firmen chemische Reaktionen durch die effizientere Biokatalyse ersetzen. Die Palette industriell interessanter Reaktionen ist aber größer als die der von natürlichen Enzymen katalysierten Reaktionen. Enzyme mit neuen Eigenschaften stehen daher hoch im Kurs. Gerichtete Evolution sieht der Biotechnologe jedoch nicht auf Proteine beschränkt – die Prinzipien lassen sich auch auf andere Moleküle anwenden. So untersucht er zum Beispiel makrozyklische Peptide, um neue Therapeutika zu entwickeln.

Kombinierte Ansätze

Generell hält Mayer es für eine gute Idee, die unterschiedlichen Ansätze im Proteindesign zusammenzubringen: „Die Kombination von Directed Evolution, Analyse und Machine Learning hat tatsächlich das Potenzial, dass wir in Zukunft mal sagen können, wir haben jetzt ein qualitatives und quantitatives Verständnis von Enzymkatalyse, und wir können voraussagen: Das ist ein gutes Enzym.“ Arne Skerra beobachtet ebenfalls, dass die Herangehensweisen oft kombiniert werden. „Der Erfolg von kombinatorischen, molekularbiologischen Selektionsmethoden profitiert auch stark von einem guten Computermodell.“

Gustav Oberdorfer sieht das ähnlich: „Diese zwei Dinge ergänzen sich sehr gut: Mit Directed Evolution kann ich recht effizient Sequenzräume samplen und erforschen, aber das kann ich nur machen, wenn ich schon einen Startpunkt habe. Und diesen Startpunkt kann ich wiederum viel leichter über computerbasiertes, rationales Design herstellen als durch das Durchforsten von Sequenzdatenbanken und das Testen von Tausenden verschiedenen Sequenzen. Sobald ich den Startpunkt habe und einen guten Assay, kann ich dann mit Directed Evolution viel optimieren.“

Wenn es eine Wunschliste für Proteindesigner gäbe, was stünde dann darauf? Oberdorfer wünscht sich, dass Proteindesign ähnlich wie Protein Engineering den Weg in den industriellen Kontext findet – verbunden mit integrierten Pipelines und Hochdurchsatz-Experimenten. Auf seiner Liste stehen auch eine einfache Proteinsynthese-Technik, um anstelle von DNA direkt Proteinsequenzen kostengünstig herstellen zu können, sowie höhere Rechenkapazitäten: „Hier würde ich mir wünschen, dass es für die akademische Wissenschaft eine günstige Möglichkeit gäbe, auch mal nur kurzzeitig Ressourcen zur Verfügung zu haben, mit denen man ein großes Modell trainieren kann.“

Effektivere Enzymtests

Skerra erhofft sich bessere Möglichkeiten zum Testen enzymatischer Aktivität. Vereinzelt seien zwar gekoppelte Substrate nutzbar, aber „in der Regel hat man es mit diffusiblen Substraten oder Produkten zu tun, die nicht am Enzym gebunden bleiben und zur Selektion genutzt werden können.“ Selbst mit einem Roboter wie in seinem Labor ist die Maximalzahl der Tests beschränkt. Miniaturisierte Technik, wie sie in der DNA-Technologie genutzt wird, könnte Abhilfe schaffen.

Hochdurchsatz-Screening und -Selektion stehen auch auf Mayers Wunschzettel, um damit den komplexen Sequenzraum besser erfassen zu können. Vor allem Screeningmethoden, die breit einsetzbar wären, fände er nützlich, und: „Was uns im Enzyme Engineering fehlt, sind die Datensätze.“ Am besten sollten diese qualitativ kategorisiert sein, um darauf basierend die Evolution weiterführen zu können. „Mein Argument ist immer, wir müssen verstehen, wie gerichtete Evolution funktioniert, warum wir diese Wege gehen und nicht andere.“

Was hat sich in den letzten Jahren getan? „Proteindesign ist heute zu einer Realität geworden. Es wird gemacht und zwar mit Erfolg“, sagt Skerra. Die Methoden zur Erzeugung von Diversität und zur gerichteten Evolution haben sich erheblich verbessert, analysiert Mayer. Ein großer Fortschritt sei beispielsweise die Verwendung der Ortsgerichteten Mutagenese anstelle der Error-prone PCR. Auch ein höherer Durchsatz ist möglich, und durch die Standardisierung sei die Arbeit einfacher geworden: „Was früher eine PhD-Thesis war, schafft heute ein Bachelorstudent oder eine Bachelorstudentin“,stellt Skerra fest. Er sieht aber auch Schwierigkeiten auf junge Arbeitsgruppen zukommen, denn ein methodisch so breit aufgestelltes Labor aufzubauen wie sein eigenes sei heute nahezu unmöglich. „Wer sich heute im Proteindesign etabliert, muss sich viel genauer überlegen, was seine Fragestellung ist – die Forschungsgebiete sind viel enger geworden. Und er muss sein Instrumentarium und die Methoden darauf konzentrieren und es entsprechend finanzieren. Da bleibt wenig Spielraum für andere Projekte.“

Spannende Entwicklung

Dennoch erlebt Oberdorfer das Proteindesign als extrem dynamisches Feld: „Das ist einerseits superspannend, aber auch nervenzerfetzend, wenn man morgens in die Archives reinschaut, wer da wieder etwas veröffentlicht hat.“ Aber vor allem empfindet er eine große Aufbruchstimmung: „Eigentlich haben wir einen goldenen Hammer, mit dem man alles einschlagen kann – die Frage ist nur, was sind die Nägel, die sich einzuschlagen lohnt?“