Akribische Spürhunde für Datenmuster

Mario Rembold, Laborjournal 04/2024


Editorial

(24.04.2024) Ohne künstliche Intelligenz kämen die Biowissenschaften nur noch im Schneckentempo voran. Aber nur wenn Forschende die Fragen an die KI-Systeme intelligent formulieren und geschickt an die Eigenheiten der Algorithmen anpassen, können die Antworten der Rechenmaschinen auch einen biologischen Sinn ergeben.

„Die Zukunft des Labors beginnt heute – und sie ist intelligent. Künstliche Intelligenz (KI) revolutioniert die Art und Weise, wie wir wissenschaftliche Forschung betreiben, mit einem Potenzial, das so grenzenlos ist wie die Datenmengen, die sie verarbeitet. [...] Tauchen Sie mit uns ein in die Welt der Algorithmen, die das Unmögliche möglich machen und die Grenzen des Machbaren stetig erweitern.“

Die hier zitierte Einleitung in unser Special „KI in der Biomedizin“ hat Microsofts Suchmaschine Bing via ChatGPT verfasst. Zugegeben, die Zeilen lesen sich eher wie ein Werbeflyer. Vielleicht hätte der menschliche Autor dieses Beitrags sich aber auch mehr Mühe geben müssen bei seiner Anweisung an die KI. Die Eingabe oder der „Prompt“ des Nutzers an die KI sind eine Wissenschaft für sich. Ein bisschen vielleicht wie der Wunsch an die Fee, den man ebenfalls mit Bedacht formulieren sollte. Maschinelles Lernen, neuronale Netze, KI, AI – nicht nur die Begriffe, auch die Technologien durchdringen unseren Alltag zusehends. Das Beispiel oben zeigt aber, dass die KI nur dann einen sinnvollen und brauchbaren Output liefert, wenn der Nutzer bei der Eingabe weiß, was er tut. Worauf die Anwender im Fall von ChatGPT hingegen keinen Einfluss haben, sind die Trainingsdaten. Diesbezüglich bleibt die Software eine Blackbox.

AI Research
Illustr.: Tara Jacoby

Editorial

Wann immer KI im wissenschaftlichen, diagnostischen oder therapeutischen Kontext eingesetzt wird, tauchen sofort auch Fragen zu ihrer Zuverlässigkeit und Reproduzierbarkeit auf. Gerade in der Medizin wurden etliche Leitlinien aus Daten gewonnen, die in erster Linie von hellhäutigen männlichen Probanden stammen. Versteckt sich solch eine statistische Schlagseite in einem smart wirkenden Software-Tool, dessen Training sich rückblickend gar nicht mehr nachvollziehen lässt, kann das fatale Konsequenzen haben.

Vorsichtiges Herantasten

Es ist daher verständlich, dass Anwender aus der Forschungsgemeinde eher auf die „konservativeren“ und bewährten KI-Tools vertrauen, bis der Nutzen neuer Methoden tatsächlich belegt ist. Unerschrockene Entwickler und Entwicklerinnen aus der Biomedizin lassen sich aber durchaus schon von ChatGPT und Co. inspirieren.

Forschende um Christoph Bock und Matthias Samwald vom Zentrum für Medical Data Science an der Medizinischen Universität Wien haben vergangenes Jahr zum Beispiel in einer Konzeptstudie GPT-4 zu einem digitalen ärztlichen Ratgeber umfunktioniert, der geeignete Tumortherapien empfiehlt. Zuvor muss man nach einem definierten Protokoll den Patienten und seine Befunde beschreiben – als Prompt in natürlicher Sprache (doi.org/kqc5; siehe dazu auch den Artikel „Fragen Sie den Arzt aus Silizium Ihres Vertrauens“ in LJ 9/2023 ab Seite 68 - Link).

Editorial

Aber wann ist eine Software intelligent? Jeder Algorithmus trifft Entscheidungen – selbst der eines banalen Thermostats im Wohnzimmer, der die Heizung anschaltet, wenn die Temperatur unter zwanzig Grad Celsius fällt. Schon beeindruckender sind Softwareprogramme, die riesige Datenmengen verarbeiten und statistisch auswerten können, an denen ein Mensch kläglich scheitern würde. Durch seine Speicherkapazität und Rechenleistung ist der Computer klar im Vorteil. Tatsächlich folgt er aber auch hier nur fest definierten Arbeitsanweisungen. Aber wer auch immer das Statistik-Tool programmiert hat –es wird mit denselben Eingaben unabhängig vom Nutzer des Programms immer auch identische Ausgaben generieren.

Beim Stichwort „künstliche Intelligenz“ denkt man aber eher an Systeme, die aus großen Datenmengen selbstständig bestimmte Regeln und Muster erlernen. Um sie dazu zu befähigen, entwickelten Informatikerinnen und Informatiker in der Mitte des letzten Jahrhunderts zum Beispiel das Konzept der künstlichen neuronalen Netze, die die Verknüpfungen in einem biologischen Gehirn nachahmen (zum Prinzip neuronaler Netze siehe auch den Hintergrund-Artikel „Lernfähige Meister der Daten“ in LJ 3/2019, ab S. 16 - Link). Neuronale Netze können zum Beispiel anhand eines Trainings mit Daten lernen, Bilder zu erkennen. In der ersten Ebene steht jedes „Neuron“ für ein Pixel des Bildes. Über weitere Ebenen verrechnet das Netz diese Eingaben und könnte zum Beispiel einen Wert für die Wahrscheinlichkeit angeben, dass ein Foto eine Katze zeigt. Vorraussetzung hierfür ist ein Training. Zunächst wird das Tool mit annotierten oder gelabelten Bilddaten gefüttert, die bereits als „Katze“ oder „nicht Katze“ ausgewiesen sind. Darauf folgt ein überwachtes Training mit neuen Daten. Die KI erhält eine Rückmeldung, ob sie korrekt entschieden hat und lernt daraus. Die Ausgaben müssen nicht unbedingt binär sein, neuronale Netze können alle möglichen Formen oder Strukturen zuordnen. Die Rechenkapazitäten der Computer erreichten aber erst Anfang dieses Jahrtausends ein ausreichend hohes Niveau, um die konzeptionell alten Algorithmen neuronaler Netze tatsächlich auch auf Datensätze anzuwenden.

Die Architektur neuronaler Netze kann ganz unterschiedlich aufgebaut sein. Sogenannte Convolutional Neural Networks (CNN) nutzen Forschende häufig für das überwachte Trainieren. Sie enthalten einzelne Schichten, die als Filter fungieren. Bei der Bildverarbeitung könnte zum Beispiel ein Filter des Netzwerks einzig für das Erkennen rechtwinkliger Kanten zuständig sein, ein anderer könnte Kreise erfassen.

Fokus auf relevante Daten

Für das nicht-überwachte Lernen sind andere Architekturen besser geeignet. Je nach Aufgabenstellung sind auch hier die Daten gelabelt oder nicht gelabelt. Ein Beispiel sind sogenannte Autoencoder, die die eingegebenen Daten komprimieren und versuchen, mit einem Decoder aus den komprimierten Daten etwas zu generieren, das der Eingabe ähnelt. Die Kompression zielt darauf ab, Muster in Datensätzen eigenständig zu erkennen. Sie nimmt dabei in Kauf, dass Information verloren geht und legt es sogar darauf an: Das Ziel ist, nur die wirklich relevanten Merkmale herauszufiltern und Muster zu erkennen. Mit dieser Technik kann eine Software zum Beispiel Rauschen reduzieren. Sie könnte damit aber auch die Wahrscheinlichkeiten berechnen, mit denen bestimmte Worte in Kombination mit anderen Worten auftauchen. Füttert man einen derartigen Autoencoder mit DNA- oder Aminosäure-Sequenzen, kann er lernen, ähnliche Sequenzen zu generieren.

Ein Autoencoder erkennt ein Muster in einer Wort- oder Basenfolge, ohne zu wissen, was die Worte bedeuten. Er extrahiert einfach nur statistische Informationen zu den eingegebenen Elementen. Auch ChatGPT hat solche Encoder implementiert, arbeitet insgesamt aber noch ausgefeilter: Der Algorithmus wertet auch die Position der einzelnen Wörter im Satz aus und setzt sie mit allen anderen Wörtern in Beziehung, die in der Nähe stehen – Informatiker nennen das Self-Attention. Ein einzelnes Wort in einem anderen Satz kann ChatGPT also ganz anders gewichten und berücksichtigt somit auch den Kontext. Diese neuesten Kreationen des maschinellen Lernens heißen Transformer-Modelle.

Aber ob altmodisches neuronales Netz aus den Siebzigerjahren oder moderne Transformer wie ChatGPT – klar ist, dass diese Tools auch bei identischen Eingaben nicht mehr reproduzierbar denselben Output liefern. Zwar sind die Algorithmen definiert. Ihre Anwendung wird aber durch Trainingsdaten und beim überwachten Lernen auch durch das Feedback der Entwickler oder Nutzer angepasst. Wird eine Software mit verschiedenen Datensätzen trainiert, wird sie auf den gleichen Prompt jeweils andere Ergebnisse ausgeben.

Forschende wie Dominic Grün vom Institut für Systemimmunologie der Universität Würzburg verwenden für die Datenanalyse sowohl altbewährte Algorithmen als auch aktuelle Techniken des maschinellen Lernens. Eigentlich ist Grün Statistischer Physiker. Er hat sich aber auf die Einzelzell-Transkriptomik spezialisiert und setzt für die Sequenzanalyse von Transkripten die unterschiedlichsten Tools ein und entwickelt sie auch selbst.

„In einer humanen Zelle befinden sich etwa 20.000 Gene“, sagt der Forscher und erklärt, dass man in einem Experiment durchaus zehn- bis hunderttausend Zellen sequenzieren kann. „Daraus resultiert ein großer und sehr komplexer Datensatz, den man mit herkömmlicher Statistik nur schwer bearbeiten kann. Von daher braucht man maßgeschneiderte Methoden, um die Daten zu strukturieren und Informationen aus ihnen herauszuziehen. Da kommen maschinelles Lernen und künstliche Intelligenz ins Spiel.“

Dominic Grün
Dominic Grün ist Inhaber des Lehrstuhls für Computational Biology of Spatial Biomedical Systems an der Universität Würzburg. Der gelernte Physiker entwickelt unter anderem KI-basierte Programme für die Analyse von RNA-Sequenzierdaten. Foto: Uni Würzburg

Nicht immer wird man bei einer Fragestellung die Transkripte von 20.000 Genen analysieren – aber auch die zahllosen Spleißvarianten oder nicht-codierenden RNAs könnten von Interesse sein. Da kommen schnell Tausende Transkripte zusammen, die in ganz unterschiedlichen Kopienzahlen vorliegen. Erstellt man ein Koordinatensystem, bei dem jedem Transkript eine Achse zugeordnet wird, erhält man die Koordinaten für jede Einzelzelle aus den jeweiligen Kopienzahlen pro Transkript. Jede einzelne Zelle kann man durch einen Punkt in einem virtuellen Raum darstellen. „In diesem hochdimensionalen Raum möchte man Nachbarschaften ableiten“, erläutert Grün.

Weniger Dimensionen

Entsprechende Methoden zur Dimensionsreduktion sind nicht neu. Grafisch dargestellt sieht man dann Cluster von Zellen, die zusammengehören und wahrscheinlich demselben Zelltyp oder dem gleichen Differenzierungsschritt zuzuordnen sind. „Uns interessiert, wie eine Stammzelle im Blut ausreift und wie das reguliert wird“, nennt Grün ein Beispiel. Läuft die Entwicklung hin zu einem Erythrozyten, oder differenziert sie sich eher zu einer T- oder B-Zelle?

Aus den Einzelzelldaten kann man auch Zeitreihen rekonstruieren – man spricht von „Pseudozeiten“, weil man nicht einzelne Zellen beim Differenzieren beobachtet, sondern unterschiedliche Zellen in verschiedenen Stadien repräsentativ plottet. Grün findet spannend, wie Zellen auf sogenannten Differenzierungs- und Zustands-Trajektorien virtuell von einem Cluster zu einem anderen gelangen, und „sich sozusagen durch diesen Raum bewegen“. Der Gruppenleiter verspricht sich von künftigen KI-Tools, dass sie vorhersagen können, welche molekularen Hebel zu welchen Änderungen führen. „Die Repräsentation im Computer sollte die Grammatik der Zelle verstehen, sodass ich in silico Gene an- und ausschalten kann“, wünscht sich Grün.

Von seiner Gruppe seien derzeit KI-Tools in Begutachtung, die neuere Methoden des maschinellen Lernens einsetzen, verrät Grün. Ein Modell basiert zum Beispiel auf dem sogenannten Deep Reinforcement Learning. Bildhaft gesprochen nähert sich der Algorithmus durch Belohnung und Bestrafung der optimalen Zielfunktion an. „Wir haben den Algorithmus so trainiert, dass er nicht gesehene Zellzustände rekonstruieren kann.“ Grundlage sind Transkriptome von gesunden Menschen und von Leukämie-Patienten. Die KI soll Zwischenzustände auf dem Weg zur Erkrankung erkennen. „Mit diesen Krankheits-Trajektorien könnte man dann frühzeitig diagnostizieren und intervenieren“, betont Grün.

Nicht aus der Perspektive des Entwicklers, sondern aus der des Anwenders blickt Tobias Erb am Max-Planck-Institut für Terrestrische Mikrobiologie in Marburg auf die KI. Die Gruppe des aktuellen Leibniz-Preisträgers rekonstruiert metabolische Wege in künstlichen Zellen und modifiziert sie durch Enzyme, die in der Natur nicht vorkommen. An der Schnittstelle zwischen Mikrobiologie und synthetischer Biologie schuf sein Team zum Beispiel synthetische Zellen, die per Fotosynthese Kohlenstoff fixieren (siehe dazu auch den Hintergrundartikel „Das Leben neu erfinden“ in LJ 6/2020, ab S. 18 Link, sowie den Journal Club „Störrische Klima-Mikroben“ in LJ 3/2024, ab S. 38 - Link). Erb und Co. wissen daher, wie man in zellfreien Systemen DNA zu RNA umschreibt, die schließlich in Proteine translatiert wird.

Die Marburger setzen ein entsprechendes System ein, um neuartige Peptide auf ihre antimikrobielle Wirksamkeit zu testen. „Die können Sie nicht in einem Organismus produzieren“, begründet Erb, „denn wenn man ein potentes antimikrobielles Peptid hat und E. coli zwingen will, dieses herzustellen, stirbt natürlich auch der Wirtsorganismus und man bekommt die besten Peptide gar nicht zu sehen.“

Bakterientötende Peptide

Doch zunächst zum eigentlichen Hintergrund der Arbeit, die vergangenen November erschienen ist (Nat. Commun. 14(1): 7197). Tiere, Pflanzen und sogar Bakterien schützen sich vor mikrobiellen Angreifern unter anderem durch antimikrobielle Peptide (AMPs). Diese erkennen vor allem bakterielle Eindringlinge. Der Mensch schützt mit AMPs zum Beispiel seine Haut vor unerwünschten Besuchern, ohne die adaptive Immunabwehr hochfahren zu müssen. Auch therapeutisch sind AMPs wegen ihrer antibiotischen Wirkung interessant.

Im Einleitungsteil ihres Papers schreiben die Autoren, dass die WHO die antimikrobielle Resistenz als eines der weltweit zehn dringlichsten Gesundheitsprobleme ansieht. Mehrfachresistenzen können dazu führen, dass bei einer bakteriellen Infektion kein wirksames Antibiotikum mehr zur Verfügung steht. AMPs könnten eine Lösung für dieses Problem sein. „Wir wollten mit dieser Arbeit dorthin vordringen, wo es noch keine natürlichen Analoga gibt. Zudem wollten wir ergründen, wie schnell und effizient man diese AMPs herstellen kann.“ Den Marburgern ging es also nicht darum, AMPs zu screenen, die bereits in der Natur vorkommen. Sie wollten völlig neue Aminosäure-Sequenzen ermitteln, die zu Peptiden mit antimikrobieller Wirkung führen. Ohne KI wäre dieses Unterfangen aussichtslos gewesen.

KI und zellfreies Expressionssystem
Mit einer Kombination aus künstlicher Intelligenz und einem zellfreien Expressionssystem sucht Tobias Erbs Gruppe am MPI für Terrestrische Mikrobiologie in Marburg in einer virtuellen Peptidlandschaft nach antimikrobiellen Peptiden. Illustr.: MPI für Terrestrische Mikrobiologie

Sequenz-Landschaften

In der ersten Stufe des Projekts verwendeten Erb und Erstautor Amir Pandi einen sogenannten Variational Autoencoder (VAE), der eigenständig relevante Muster aus Datensätzen extrahieren kann. „Den VAE haben wir zunächst mit 1,5 Millionen Peptid-Sequenzen gefüttert“, beschreibt Erb den ersten Schritt. Der VAE erstellte daraus eine Art innere, dimensionsreduzierte Repräsentation. Erb vergleicht das mit einer Landschaft. Der Decoder des Tools kann rückwirkend aus jedem Punkt der Landschaft die ursprünglich eingegebene Peptid-Sequenz berechnen (oder zumindest eine ähnliche Sequenz). In der Landschaft kann man aber auch einen unbekannten Punkt „decodieren“, der irgendwo zwischen den bereits bekannten Punkten liegt. Der VAE generiert eine neue Peptid-Sequenz mit ähnlichen Eigenschaften, die an den Ort dieser Landschaft passt. Der VAE „wusste“ bis zu diesem Zeitpunkt aber noch nichts über AMPs. Das Team fütterte den Autoencoder daher mit rund 5.000 Sequenzen von Peptiden mit bekannter antimikrobieller Aktivität. Diese fügten sich in die „innere Landschaft“ ein und bildeten eigene Regionen. „Dann haben wir den VAE über den Prompt aufgefordert: Finde ähnliche Sequenzen!“, fährt Erb fort. Die KI hatte also die Aufgabe, nicht irgendwo in der „Peptidlandschaft“ Punkte zu suchen, sondern nur dort, wo Peptide mit antimikrobieller Aktivität zu erwarten waren. Decodiert in eine Aminosäure-Sequenz lieferte der VAE Peptide, die keine direkten Entsprechungen in der biologischen Welt haben – auch wenn Erb nicht ausschließt, dass man eines Tages vielleicht Pendants mit sehr ähnlichen Sequenzen in metagenomischen Datensätzen finden könnte.

Der Forscher vergleicht die Suche des Algorithmus nach AMPs in der Peptidlandschaft mit der Suche nach Bergziegen im Gebirge. „Bergziegen findet man, wo Berge und Hütten sind. Dort kann man also hingehen und eine Bergziege voraussagen.“ Ob dort tatsächlich Ziegen herumkraxeln – oder die vom VAE ausgegebenen Sequenzen tatsächlich antimikrobiell wirken – muss jedoch immer mit einem Experiment aus der realen Welt gezeigt werden. Für die Synthese der Peptide benötigt man die zellfreien Systeme. Anschließend schaut man, wie gut sie gegen Bakterien wirken. Die Maßzahl hierfür ist die Minimum Inhibitory Concentration (MIC), also die notwendige Mindestkonzentration, die die Bakterien aufhält. Je niedriger die MIC, desto besser das AMP.

Allerdings lieferte der VAE 500.000 potenzielle AMP-Kandidaten – unmöglich, die allesamt in einem überschaubaren Zeitraum zu screenen. Die Gruppe musste die Zahl daher mit einem zusätzlichen Software-Tool, einem sogenannten Regressor, reduzieren. Der Regressor analysierte die 500.000 Kandidaten und glich sie mit bekannten Kennzahlen der 5.000 bekannten AMPs ab. „Es ging vor allem darum, die Sequenzen herauszufiltern, die vermutlich eine geringe MIC haben“, so Erb. Übrig blieben 500 Sequenzen, die dann tatsächlich im zellfreien Expressionssystem ein Screening durchliefen. Heraus kamen dreißig AMPs, von denen das Team schließlich sechs auswählte, die therapeutisch wirksam sein könnten. Bei diesen war laut Erb die Breitbandwirkung sowie eine geringe Toxizität gegenüber menschlichen Zellen ausschlaggebend.

Kein Ersatz für Versuche

Die KI ersetzt also nicht alle Laborexperimente. Sie kann aber zunächst einen Möglichkeitsraum durchsuchen, der in der analogen Welt gar nicht zugänglich ist. Die Marburger nutzen diesen Arbeitsablauf in ähnlicher Weise auch, um die Bedingungen für künstliche Stoffwechselwege zu optimieren. „Darin kombinieren wir manchmal 25 Enzyme“, erläutert Erb. Die Konzentrationen der Enzyme kann man beliebig variieren und auf ewig durchtesten. Schlägt die KI aber bestimmte Konzentrationen vor, ist die astronomisch hohe Zahl auf ein überschaubares Maß eingegrenzt.

In der Studie zu den AMPs sieht Erb nur einen ersten Schritt. „Vielleicht gab es unter den 500.000 allerersten Kandidaten Peptide, die viel besser gewesen wären?“, spekuliert er. Mit den experimentellen Daten der 500 gescreenten Peptide könnte man das Modell erneut trainieren. „Ich denke, damit wird mein ehemaliger Postdoc Amir Pandi weitermachen, der inzwischen an die Universität Paris gewechselt ist“, vermutet Erb und betont: „Pandi hat das Projekt entwickelt, er war auch EMBO-Fellow und sehr wichtig für unser Labor.“