Editorial

Wie es der Zufall will - Gerichtete Evolution von Proteinen

Mario Rembold, Laborjournal 09/2023


(08.09.2023) Am Computer designte Proteine funktionieren in der Realität nicht immer so wie erwartet. Meist ist noch ein Finetuning durch gerichtete Evolution nötig, die die Proteine nach dem Zufallsprinzip optimiert – und dazu von den Experimentatoren mit sehr ausgefeilten Selektionsverfahren in die anvisierte Richtung gelenkt wird.

Für das Optimieren von Proteinen existiert ein Verfahren, das sich seit mehr als drei Milliarden Jahren bewährt hat: Mutation und Selektion. Es ist also naheliegend, dass Forschende beim Proteindesign die Mechanismen der Natur abkupfern. Auch im Labor kann man Nukleotidsequenzen mehr oder weniger zufällig verändern, ihre Genprodukte synthetisieren und dann mit geeigneten Assays die vielversprechendsten Kandidaten herauspicken. Anschließend variiert man die selektionierten Sequenzen erneut. Mit jedem Durchlauf, also quasi mit jeder Generation, entstehen bessere Varianten – bis schließlich ein Optimum erreicht ist.

Diese gerichtete Evolution (Directed Evolution) ist ein alter Hut. Wenn man es ganz genau nimmt, müsste man ihre Pioniere unter den Menschen suchen, die als Erste angefangen haben, Pflanzen und Tiere mit ausgewählten Eigenschaften zu züchten. Doch erst nachdem man das Prinzip der Vererbung verstanden hatte und sowohl die Struktur der DNA als auch die Mechanismen der Transkription und Translation bekannt waren, konnte man ganz gezielt molekularbiologische Verfahren für die gerichtete Evolution entwickeln.

Evolutionsmotor spuckt Proteine und Organismen aus
„Wir wissen vielleicht nicht, wie man Proteine konstruiert, aber die Evolution weiß es mit Sicherheit“, hat die Grand Dame der gerichteten Evolution Frances Arnold dieses Bild untertitelt. Proteindesigner nutzen also mit gutem Grund die gerichtete Evolution, um Proteine zu optimieren. Illustr.: Frances Arnold

Noch weit entfernt vom Proteindesign waren Experimente, die Sol Spiegelmans Gruppe Mitte der Sechzigerjahre in Illinois durchführte: Sie verwendete die RNA-abhängige RNA-Polymerase aus Bakteriophagen, die normalerweise die virale RNA repliziert. Allerdings funktionieren diese Enzyme nicht universell für beliebige RNAs. Spiegelman et al. wollten aber wissen, ob weitere RNA-Sequenzen möglich sind, die sich mit dieser Polymerase replizieren lassen. Sie starteten mit der viralen RNA sowie dem Enzym und ließen die Reaktion im Reagenzglas ablaufen. Begünstigt waren RNAs, die sich besonders schnell vermehrten. Im Lauf der Generationen verkürzten sich die RNA-Moleküle immer weiter. Am Ende waren 84 Prozent der viralen Information verlorengegangen (PNAS 58(1): 217-24).

Klar, in diesen Versuchen hatten die erzeugten RNA-Sequenzen keinerlei Nutzen, der für technologische oder biomedizinische Anwendungen interessant gewesen wäre. Das Team zeigte aber, dass man eine RNA in Anwesenheit eines Enzyms in einer reinen In-vitro-Umgebung replizieren konnte und dabei auch ein Selektionsdruck auf die Sequenz dieser Moleküle bestand: Zunächst mussten die Sequenzen von der Polymerase als Substrat erkannt werden, und sie hatten einen Vorteil, wenn sie kürzer und somit schneller duplizierbar waren. Spiegelmans Team führte damit die darwinistische Auslese von Biomolekülen im Reagenzglas durch.

Gerichtete Evolution wie wir sie heute verstehen, hat aber erst in den Neunzigerjahren richtig Fahrt aufgenommen. Frances Arnold, heute tätig am Caltech in Pasadena, veränderte 1993 gemeinsam mit Keqin Chen die Serinprotease Subtilisin E. Die Idee dahinter: Eine katalytische Aktivität könnte auch für einen technischen Prozess interessant sein; allerdings möchte man dann andere Reaktionsbedingungen nutzen. Arnold und Chen veränderten die Sequenz von Subtilisin E zufällig und screenten nach Varianten, die auch in hochgradig polaren organischen Lösungsmitteln hydrolytisch aktiv sind. Herauskam ein Enzym, das in sechzigprozentigem Dimethylformamid 256-mal effizienter war als der Wildtyp (PNAS 90(12): 5618-22).

2018 ging der Chemie-Nobelpreis zur Hälfte an Arnold – als Würdigung ihrer Beiträge zur gerichteten Evolution. Die andere Hälfte des Preises teilten sich im selben Jahr George Smith, Universität Missouri, und Gregory Winter, MRC Laboratory of Molecular Biology, Cambridge, UK. Auf Smith geht das Phagen-Display zurück, Winter hat die Methode auf Antikörper angewendet.

In einem aktuellen Review fassen Lara Vidal et al. die Methoden rund um die gerichtete Evolution zusammen (RSC Chem. Biol. (4(4): 271-91). Anfangs waren für die Mutagenese noch physikalische Methoden mithilfe ionisierender Strahlung oder DNA-verändernder Chemikalien üblich. Später erlaubte die Error-Prone-PCR (epPCR) ein viel genaueres Abstimmen der Mutationsrate. Durch Anpassen der Reaktionsbedingungen wird die PCR mehr oder weniger fehleranfällig. Die natürliche Mutationsrate von E. coli liegt zum Beispiel bei nur 10-3 pro Genom pro Generation. Für die gerichtete Evolution möchte man aber in der Größenordnung von einer Mutation pro Kilobase pro Generation landen. Heute steuert man die Mutationsrate durch Zugabe alternativer Nukleotide oder setzt spezielle Polymerase-Varianten mit hohen Fehlerraten ein.

Im oben erwähnten Review listen die Autoren eine ganze Latte molekularbiologischer Mutagenese-Verfahren auf. Dazu gehört auch das gezielte Einsetzen oder Herauslösen größerer Abschnitte – also Insertionen und Deletionen. Zwar setzt man bei der Mutagenese auf den Zufall, dennoch wird man in den meisten Fällen eine Idee davon haben, welche Positionen des Proteins für ein erwünschtes Merkmal relevant sein könnten. Geht es um die Bindung zu einem Liganden, greift man auf Kristallstrukturen zurück, um auf kritische Positionen zu schließen. Will man die katalytische Aktivität modifizieren, nutzt man bereits bekanntes Wissen über das aktive Zentrum.

Vorauslese statt Blindflug

Statt also blind das gesamte Gen zu verändern, pickt man sich in solchen Fällen ein einzelnes kurzes Stück heraus, zu dem man eine möglichst hohe Diversität an Varianten erzeugen will. Man spricht von fokussierter Sättigungsmutagenese oder Site Saturation Mutagenesis (SSM). In der Folge eines Forschungsprojekts kann es vorkommen, dass man SSM-Bibliotheken mit jeweils unterschiedlichen Positionen beisammen hat. Vielleicht ist es aber nicht die eine Stelle im Protein, die die optimale Variante bereithält, sondern eine Kombination der erzeugten Varianten an unterschiedlichen Positionen. Hierzu kann man die homologen DNA-Sequenzen aus den unterschiedlichen Bibliotheken zusammengeben, diese an unterschiedlichen Positionen zerschneiden und dann PCR-Zyklen laufen lassen. Dabei werden nach dem Zufallsprinzip unterschiedliche Varianten rekombiniert, sodass vollkommen neue, aber homologe Protein-Versionen herauskommen. DNA-Shuffling nennt sich dieses Durchwürfeln neuer Kombinationen.

Heute ist es in vielen Fällen aber gar nicht mehr zweckmäßig, im eigenen Labor zufällige Varianten zu synthetisieren. Cathleen Zeymer, Professorin an der Technischen Universität München, weist darauf hin, dass man bei Firmen gezielt synthetische Gene und Pools von DNA-Oligos bestellen kann und die Preise in den letzten Jahren massiv gesunken sind. „Es kann natürlich sein, dass man einzelne Positionen im Enzym in der Nähe des Substrates komplett randomisieren will und daher alle zwanzig Aminosäuren zulässt“, schränkt Zeymer ein. „Wenn man das gleichzeitig an drei oder vier Positionen vorhat, bekommt man riesige Bibliotheken.“

Andererseits gebe es aber auch Fragestellungen, bei denen die Computervorhersage nur eine begrenzte Zahl von Sequenzen zulässt zum Beispiel weil man eine ganz bestimmte räumliche Struktur benötigt. „Wenn der Computer einige hundert oder tausend Designs für ein kleines Protein ausspuckt, dann kann es sich sehr wohl lohnen, diese Sequenzen ganz gezielt als synthetische Gene oder Oligos auf einem Chip zu bestellen und dann zu testen“, erklärt Zeymer. Das sei inzwischen State of the Art.

Konzeptionell grenzt Zeymer das De-novo-Design von Proteinen von der gerichteten Evolution ab. „Proteindesign passiert im Computer und ist etwas sehr Neues“, stellt sie klar, „das ist im Prinzip die Umkehr des Protein-Folding-Problems“. Anstatt zu simulieren, wie sich eine vorgegebene Aminosäure-Folge räumlich faltet, soll der Computer jetzt zu einer vorgegebenen 3D-Struktur mögliche Sequenzen liefern. „In den vergangenen zwei Jahren geschah eine Revolution auf diesem Feld, weil künstliche Intelligenz und maschinelles Lernen so viel effizienter einsetzbar sind“, ergänzt sie.

Zeymer sieht ihr Team an der Grenze zwischen Chemie und Biochemie angesiedelt: „Meine Gruppe entwickelt neue Enzyme, die Reaktionen katalysieren, die so in der Natur nicht vorkommen. Um diese Katalysatoren zu verbessern, wenden wir Directed Evolution an“. Während beim Proteindesign zunächst alle Türen offenstehen, setzt die gerichtete Evolution an bereits existierenden Sequenzen an, denen schon eine gewisse Funktionalität innewohnt – die man dann durch Veränderung und Selektion in eine gewünschte Richtung lenkt.

Ein zentrales Arbeitsfeld der Gruppe ist das Design von Enzymen, die ein Lanthanoid als Metall-Cofaktor enthalten. Derzeit verwendet sie dazu ein komplett neu entworfenes TIM-Barrel. „Das Protein ist in der Arbeitsgruppe von David Baker entstanden, einem der Pioniere des Proteindesigns“, betont Zeymer. Ein TIM-Barrel ist aus acht Alpha-Helices und acht parallelen Beta-Strängen aufgebaut. Die Form erinnert an einen Donut oder ein Fass, daher der Name „Barrel“. „In natürlichen Enzymen ist dieser Bauplan weit verbreitet, weil das eine robuste Struktur ist“, weiß Zeymer. „Wir haben hier viele Möglichkeiten, katalytisch notwendige Aminosäuren um das aktive Zentrum herum zu positionieren und so ganz neue Reaktionen zu katalysieren.“

Katalysator in Fass

Bereits 2020 hatten Zeymer und Co. in das TIM-Barrel der Baker-Gruppe eine Lanthanoid-Bindestelle eingebaut (PNAS 117(48): 30362-9). Zwar kennt man inzwischen auch Mikroorganismen, die in Enzymen Lanthanoide als Cofaktoren benötigen. Das neu geschaffene Protein hat laut den Autoren aber keine Sequenzhomologie zu Proteinen aus der Natur und erfüllt auch keine native Funktion. Derzeit arbeitet Zeymer mit dem Lanthanoid Cer. „Da laufen gerade Projekte, in denen wir dem Metall-Protein katalytische Funktionen geben“, verrät Zeymer, möchte derzeit aber noch nicht auf die Details eingehen. Was sie aber vorab durchblicken lässt: „Lanthanoide sind sehr starke Lewis-Säuren. Diese Eigenschaft kann man nutzen, um C-C-Bindungen zu knüpfen. Im Komplex gebunden können wir Cer energetisch durch Licht anregen, und in diesem Zustand lassen sich einzelne Elektronen leichter übertragen.“ Hierzu hatte sich die Gruppe erfolgreich auf einen ERC Starting Grant der EU beworben. „Künstliche Lanthanoid-Enzyme für selektive Photokatalyse (PhotoLanZyme)“ nennt sich das laufende Projekt.

Auch wenn die „Startpunkte“ für ein künstliches Protein heute aus dem Computer stammen, basiert die gerichtete Evolution noch immer weitgehend auf dem Zufall. „Oft müssen wir viel optimieren und auch Mutationen erzeugen, die gar nichts mit der Metallbindung zu tun haben, sondern mit der Substratbindung des Enzyms.“ Ein mittelmäßig funktionierendes Enzym, das der Computer errechnet, reiche insbesondere dann nicht, wenn man auf industrielle Anwendungen abzielt.

Der Flaschenhals bei der gerichteten Evolution ist die Selektion der besten Varianten in jeder Runde. In manchen Fällen kann man einen gewünschten Phänotyp an das Überleben eines Wirtsorganismus wie E. coli koppeln. „Leider kommt man bei vielen Fragen aber nicht um einen HPLC-Screen herum, und da bekommen wir keinen besonders hohen Durchsatz hin“, schildert Zeymer ihre Erfahrungen.

Es gibt heute aber auch bereits Verfahren, die sogar komplett zellfrei durchführbar sind. Eines davon ist das Ribosome Display: „Wir verwenden ein PCR-Fragment, auf dem Promotor und Gen liegen und zusätzlich noch ein weiteres Stück, das den Leserahmen verlängert“, erläutert der Biochemiker Andreas Plückthun die Modifikationen der proteincodierenden Sequenz. Hierdurch fällt das Stoppcodon weg. Gibt man eine RNA-Polymerase sowie Ribosomen zu, transkribiert die RNA-Polymerase die DNA zu RNA und an den Ribosomen wird die RNA zu einem Protein translatiert. „Weil es aber kein Stopcodon gibt, bleiben sowohl das Protein als auch die RNA am Ribosom hängen“, geht Plückthun auf den eigentlichen Kniff der Methode ein. Analog zum Phagen-Display kann man das Protein anhand seiner Affinität herausfischen oder anreichern. „Zum Beispiel über magnetische Beads, an denen ein Target fest angebracht ist“, ergänzt Plückthun.

Weil am Protein noch das Ribosom samt der RNA hängt, lässt sich die RNA revers transkribieren und die entstandene DNA dann wieder zufällig verändern, zum Beispiel durch epPCR. Die PCR-Produkte durchlaufen dann wieder Transkription und Translation, wobei erneut Varianten mit hohen Affinitäten zum Target bevorzugt herausgefischt werden. „Das alles läuft ganz unspektakulär in 50 Mikrolitern in Eppendorf-Tubes ab“. Vorgestellt hatte Plückthun das Ribosome Display bereits 1997 zusammen mit Jozef Hanes (PNAS 94(10): 4937-42). Inzwischen ist es ein Standardverfahren in seinem Labor.

Mehr Einfallsreichtum ist nötig, um nach einer katalytischen Aktivität zu screenen. Da genügt es nicht, nur die Bindungseigenschaften des noch am Ribosom hängenden Proteins zu testen. Doch auch dafür gebe es trickreiche zellfreie Assays, die auf dem Ribosomen-Display aufbauen, beruhigt Plückthun: „Man muss für den Nachweis enzymatischer Aktivität jeweils in einem geschlossenen Vesikel bleiben, aber das kann man durch Emulsionen aus Öl und Wasser erreichen.“ Zudem benötigt man einen Parameter, der gut messbar ist, zum Beispiel via Farbreaktion. Und natürlich sollten in solchen Ansätzen einzelne Tröpfchen auch nur eine einzige DNA- beziehungsweise RNA-Sequenz enthalten.

Zweite Ebene mit Überraschung

Plückthun leitet an der Universität Zürich eine Arbeitsgruppe, die sich dem Protein-Engineering und Proteindesign widmet. Rosetta, AlphaFold und andere KI-gestützte Systeme gehören auch in Zürich zum Standard. Für das Finetuning kommt Plückthuns Team aber nicht um die gerichtete Evolution herum. Zwar schauen die Forschenden, wo sich ein Austausch lohnt. Dafür kämen, so Plückthun, in den letzten Monaten ermutigende Fortschritte aus den Reihen der Software-Entwickler. Dennoch berichtet er von Überraschungen. „Wir haben im Laufe der Zeit gelernt, dass Mutationen mit großem Einfluss nicht immer direkt am Bindungspartner liegen müssen, aber trotzdem dazu beitragen, die Reste, die den Kontakt herstellen, optimal zu positionieren. Wir sprechen da von einer zweiten Ebene oder Second Shell.“ Dahinter stecke ein derart gigantischer Sequenzraum, dass man diesen nicht sehr effizient durch theoretische Modelle erschließen könne. „Daher sind die Methoden der Directed Evolution nach wie vor wirklich sehr, sehr gut“, stellt Plückthun fest.

Gerichtete Evolution ist kein Selbstzweck, sondern eines von vielen Werkzeugen, die Plückthuns Mannschaft regelmäßig einsetzt. Zum Beispiel möchten die Züricher besser verstehen, wie G-Protein-gekoppelte Rezeptoren (GPCR) räumlich mit anderen Substanzen interagieren. Schätzungsweise 35 Prozent aller von der US-amerikanischen Arzneimittelbehörde FDA zugelassenen Medikamente richten sich gegen einen GPCR.

Stabilere Rezeptoren

Allerdings ist es schwer, Kristallstrukturen von GPCRs zu erzeugen. „Das ist unsere Motivation: Wir möchten gern Kristallstrukturen dieser Rezeptoren erhalten, und wir möchten sehen, welche Unterschiede es gibt, wenn ein Agonist oder Antagonist gebunden ist“, so Plückthun. Nicht nur das Kristallisieren ist eine Herausforderung – schon Isolieren und Aufreinigen gestalten sich schwierig. Um die Stabilität einzelner GPCRs zu erhöhen, tasten sich Plückthun und Kollegen durch gerichtete Evolution an neue Varianten heran (ein frei verfügbares Review zum Thema erschien 2021 in Molecules (26(5): 1465).

Das sei nicht immer problemlos, räumt Plückthun ein. „Natürlich gibt es Fälle, wo der Rezeptor vielleicht nur noch den Antagonisten oder nur noch den Agonisten bindet. Dann müssen wir ermitteln, ob die Bindungskonstante bei erfolgreicher Bindung gleich ist – was bedeutet, dass wir wohl noch dieselbe Konformation sehen wie im Wildtyp. Aber den Wildtyp selbst können wir halt überhaupt nicht sichtbar machen.“

Auch für das Design sogenannter modularer Peptidbinder greift Plückthuns Gruppe auf die gerichtete Evolution zurück. Die hergestellten Proteine passen jeweils auf eine ganz bestimmte Abfolge von Aminosäuren. „Wir möchten einen kompletten Bindungscode entwickeln für lineare Epitope“, erläutert Plückthun. Grundlage dafür ist ein System aus frei kombinierbaren Modulen unterschiedlicher Armadillo-Repeats. Letztere sind gängige Motive in unterschiedlichen natürlichen Proteinen. „Das sind drei Helices, die eine spezielle Orientierung haben und sich auch mehrfach hintereinander anordnen lassen“, beschreibt Plückthun das Aussehen der Moleküle. Die Repeats vermitteln den Kontakt zu anderen Proteinen, indem jeweils eine Aminosäure pro Modul in einer Tasche bindet.

Selektive Bindetaschen

Plückthun möchte das Alphabet der Armadillo-Repeats erweitern, sodass für alle zwanzig Aminosäuren eine spezifische Tasche zur Verfügung steht. Überall dort, wo Proteine linearisiert vorliegen, kann ein synthetisches Armadillo-Repeat-Protein bei passender Sequenz binden. „Dadurch könnten wir im Prinzip beliebige Epitope erkennen und die monoklonalen Antikörper, die in Western Blots eingesetzt werden, durch dieses System ersetzen; oder wir könnten Immunohistochemie oder Proteinreinigung damit durchführen“, schwärmt Plückthun.

Um einzelne Taschen hochselektiv für eine bestimmte Aminosäure zu designen, ändert man die Sequenz eines Armadillo-Repeats und selektiert auf eine möglichst hohe Selektivität und Affinität. Plückthun berichtet von einem Beispiel, bei dem sich zwei Zielsequenzen nur durch eine Aminosäure unterscheiden – diese eine korrekte Aminosäure ist aber notwendig, um vom Armadillo-Repeat-Protein erkannt zu werden. „Wir können zeigen, dass im Kontext zweier fast gleicher Peptide die einzelne Aminosäure wirklich eine überragende Rolle spielt.“

Noch gibt es nicht für jede Aminosäure ein Gegenstück. „Wir haben ungefähr die Hälfte, aber während des Prozesses lernt man dazu, und ich denke, dass es absehbar ist, dass wir bald die meisten davon beisammen haben“, blickt Plückthun optimistisch in die nahe Zukunft. Einen Review-Beitrag zu modularen Peptidbindern hat die Gruppe vergangenes Jahr veröffentlicht (Biol. Chem. 403(5-6): 535-43).

Das Entlanghangeln von Mutation zu Mutation hat aber auch Grenzen. Die kombinatorischen Möglichkeiten mit zwanzig Aminosäuren werden schon mit wenigen Loci astronomisch hoch.

Manfred Reetz vom Max-Planck-Institut für Kohlenforschung in Mülheim an der Ruhr erläutert in einem Review das Proteindesign vor dem Hintergrund seiner Forschung – er arbeitet zur asymmetrischen Katalyse und möchte die Stereoselektivität von Enzymen auf jeweils ein Enantiomer hin optimieren. Dabei könne man sich bei der gerichteten Evolution auch auf ein Alphabet aus zwölf Aminosäuren beschränken, schreibt er in einem Chembiochem-Paper, um dennoch ausreichend viele geladene und ungeladene, große und kleine sowie aromatische und nicht-aromatische Aminosäuren im Pool zu behalten (Chembiochem 23(14): e202200049). „Wir haben auch gezeigt, dass man sogar weniger als zwölf Aminosäuren verwenden kann, mit dem schönen Ergebnis, dass deutlich weniger Screening notwendig ist“, ergänzt Reetz. „Es hat sich herausgestellt, dass etwa drei Aminosäuren in der Regel ideal sind, um die Hotspots zu identifizieren.“ Dabei hilft zum Beispiel auch der Computer weiter, so Reetz, um zu entscheiden, welche drei Aminosäuren bei einem bestimmten Enzymtyp statistisch am häufigsten rund um die Bindetasche vorkommen. „Es ist uns kürzlich gelungen, Directed Evolution und Rational Enzyme Design zu kombinieren – mit unserer Entwicklung der Focused Rational Iterative Site-specific Mutagenesis (FRISM).“ Die Methode, die sein Team 2020 vorgestellt hat, lasse sich auch mit maschinellem Lernen kombinieren.

Bislang existieren allerdings nur wenige hochqualitative Proteindatenbanken, in denen für das Maschinenlernen geeignete Angaben zu sämtlichen katalytischen Eigenschaften bei verschiedensten Reaktionsbedingungen hinterlegt sind. Speziell für die Fragen, denen Reetz nachgeht, sei jedoch reichlich Information verfügbar, verrät er. „Die Literatur enthält Tausende, wenn nicht Millionen Daten zum Einfluss etlicher Mutationen auf Stereo- oder Regioselektivität“. Lipasen, Esterasen, Reduktasen und Oxidasen nennt er als Beispiele. Die gerichtete Evolution sei längst in der Industrie angekommen, so Reetz: „Nahezu alle Pharmafirmen haben eine eigene Directed-Evolution-Einrichtung, oder sie haben Verträge mit kleineren Bio-Firmen.“

Ergänzt durch KI

Auch das Team um Frances Arnold geht davon aus, dass die gerichtete Evolution künftig vom maschinellen Lernen profitieren wird (Curr. Opin. Struct. Biol. 69: 11-8). Zum Beispiel können Modelle zu einem gewissen Grad unbeaufsichtigt ohne gelabelte Trainingsdaten lernen: Encoder nennt man solche neuronalen Netze, die den Input – hier die verschiedenen Variationen von Aminosäurefolgen – in eine komprimierte numerische Repräsentation übersetzen. Teil des Lernprozesses ist es, diese Repräsentation wieder auf die ursprüngliche Aminosäuresequenz zurückführen zu können.

Intuitiv ist schwer verständlich, wie hieraus brauchbare Vorhersagen zustandekommen. Der Algorithmus hat in diesem Fall schließlich keinerlei Kenntnisse zu den Phänotypen, die mit den Aminosäurefolgen in Zusammenhang stehen; er besitzt überhaupt kein biochemisches Wissen. „Sie können sich das so vorstellen, dass eine Wahrscheinlichkeit erlernt wird für Aminosäuren, die in einem bestimmten Kontext in der Nachbarschaft folgen sollten“, veranschaulicht Jason Yang aus Arnolds Gruppe am Caltech in Pasadene das Grundprinzip. „Auf diese Weise lernt der Encoder biochemische Zusammenhänge aus ungelabelten Daten. Eine Analogie dazu ist ein Modell wie GPT, das ebenfalls Muster einer Sprache lernt und dann aus dem Kontext vorangegangener Wörter die wahrscheinlichsten Wörter zurückgibt.“

Die Möglichkeit, gerichtete Evolution ausschließlich in silico durchzuführen, ist derzeit zwar noch nicht in Reichweite. Die Zahl der potenziellen Kandidaten computergestützt einzudampfen, um vielversprechende Variationen auszuwählen, dürfte aber sukzessive weiter an Bedeutung gewinnen.