Editorial

Fragen Sie den Arzt aus Silizium Ihres Vertrauens - Simulate-GPT

Mario Rembold


(08.09.2023) Sprachmodelle wie ChatGPT könnte man als virtuelle Experten einsetzen, die Vorhersagen zu verschiedenen biomedizinischen Szenarien treffen, etwa wie sich Wirkstoffe in Tiermodellen verhalten. Damit ließen sich unnötige Tierversuche vermeiden. Wesentlich heikler wären Prognosen bei echten Patienten.

Ein „biomedizinischer Simulator“, der Therapieempfehlungen für Krebspatienten ausgibt oder die Immunantwort von Mäusen auf die Injektion von Lipopolysaccharid (LPS) voraussagt, müsste umfassendes Wissen zu biochemischen Vorgängen verinnerlicht haben. Wahrscheinlich wäre eine derartige Universal-Software mit Datenbanken zu Pharmakokinetik und -dynamik verknüpft, würde auf Datensätze zu Risikogenen und deren Genprodukte zugreifen und könnte auch noch Proteinfaltung und Interaktionen mit Wirkstoffen berechnen. Ganz sicher wäre das System aber umständlich zu bedienen, denn eine Forscherin oder ein Arzt müssten die Suchanfragen in einem Format eingeben, das der Algorithmus versteht.

So ähnlich hätten sich viele noch vor einem Jahr einen virtuellen biomedizinischen Assistenten vorgestellt. Dann kam der Chatbot ChatGPT, mit dem man einfach so drauf- los plaudern kann und der zu jedem Thema eine Antwort parat hat. Hinter ChatGPT steht ein sprachbasiertes KI-Modell, das mit umfangreichen Texten in natürlicher Sprache trainiert ist. Die Abkürzung GPT steht für Generative Pre-trained Transformer.

Roboter nutzt ChatGPT
lllustr.: University of Maryland

Forscher des Research Center for Molecular Medicine (CeMM) und der Medizinischen Universität Wien unter Federführung von Christoph Bock und Matthias Samwald haben getestet, ob man die jüngste Variante GPT-4 als biomedizinischen Simulator verwenden könnte. Ihre Ergebnisse stellt die Gruppe auf bioRxiv zur Diskussion (doi.org/kqc5).

Wer selbst schon mit ChatGPT herumgespielt hat, dürfte erstaunt sein, wie der Bot scheinbar Inhalte begreift und strukturiert auf Argumente eingeht. Im nächsten Moment kann aber schon eine vollkommen unsinnige Antwort mit herbei halluzinierten Inhalten Ernüchterung auslösen. Experten betonen daher das Grundprinzip von Sprachmodellen: Sie erlernen Sprache nicht wie Menschen während der Interaktion mit der Umwelt und mit anderen Menschen – sie finden nur Muster in von Menschen geschriebenen Texten.

Im Aufspüren von Korrelationen sind die Modelle inzwischen so gut, dass sie auf eine Eingabe mit natürlich wirkender Sprache reagieren können. Letztlich aber wählen sie Wortfolgen aus, die grammatikalisch korrekt sind und inhaltlich passen, weil es die Statistik diktiert – und nicht, weil sie ein Verständnis für das Gefragte hätten. Da allein die Korrelationen zwischen Satzbausteinen zählen, tut sich ChatGPT auch schwer mit der Mathematik: Falsche Ergebnisse zu simplen Rechenaufgaben präsentiert der Bot dennoch voller Selbstsicherheit.

Bisher nur ein Konzept

Möchte man sich da auf einen medizinischen Ratschlag von ChatGPT verlassen? „Wir sagen nicht, dass man das, was wir in dem Paper präsentieren, in dieser Form anwenden soll“, stellt Matthias Samwald klar, „denn es ist natürlich erst einmal nur ein Proof of Concept.“ Zugleich möchte Samwald aber auch die Pauschalkritik an Sprachmodellen nicht stehenlassen. „Es beginnt damit, dass gesagt wird: Es sind nur statistische Modelle.“ Dem Einwand, das System wisse ja gar nicht, was es schreibt, entgegnet er: „Das ist etwas, woran sich viele aufhängen: Dass das bloß Wort-Vorhersagen seien. Aber diese Modelle lernen durch das Training sehr viel mehr. Das ist eben kein stupides Autocomplete, denn sonst würden wir nicht die Dinge sehen, die wir jetzt sehen.“

Samwald forscht zur künstlichen Intelligenz und widmete sich schon lange vor ChatGPT Projekten, die zum Ziel haben, klinische Entscheidungen Software-basiert zu unterstützen und zu verbessern.

„Wir sind in wenigen Jahren von Systemen, die fast gar nichts konnten, zu Programmen gelangt, die in vielen Aufgaben Experten ebenbürtig sind oder diese sogar schlagen können“, blickt er auf die jüngere Vergangenheit zurück und sieht exponentielle Fortschritte. „Eigentlich wundern wir uns, dass es überhaupt funktioniert!“ Der kritische Blick auf die KI sei in vielen Punkten gerechtfertigt, Probleme wie die „Halluzinationen“ der Sprachmodelle hält er aber für lösbar. „Darin steckt sehr viel textuelles Wissen, und ich glaube, dass diese Systeme sehr mächtig sind und sich flexibel nutzen lassen.“

In ihrem Manuskript sprechen die Autoren von Large-Language-Modellen (LLM), auch wenn sie konkret mit GPT-4 gearbeitet haben. Um zu belegen, dass das Sprachmodell trotz Rechenschwächen in der Lage ist, logische Muster zu verstehen und fortzuführen, musste es nach den Anweisungen der Gruppe eine Figur aus „Conways Spiel des Lebens“ darstellen. Conways Spiel des Lebens ist ein sogenannter zellulärer Automat. Auf einer zweidimensionalen Fläche liegen Felder oder „Zellen“, die entweder lebendig oder nicht lebendig sind. Überlebensregeln legen fest, welche Zelle in der Folgegeneration lebt oder nicht lebt (siehe hierzu den Artikel „Conway‘s Game of Life“ vom 16.6.2015 auf LJ online - Link).

Kurioserweise entstehen in Conways Spiel des Lebens immer wieder stabile Figuren aus mehreren Zellen, die sich über die Generationen hinweg auf dem zweidimensionalen Spielfeld bewegen. Solch einen sogenannten Gleiter sollte GPT-4 simulieren. Das Team beschrieb dem LLM die Überlebensregeln und erklärte ihm, wie es den Gleiter mit Schriftzeichen darstellen soll. Daraufhin gab GPT-4 in der Textausgabe einen kompletten Lebenszyklus des Gleiters grafisch wieder. Obwohl es nur ein Sprachmodell ist, war das System in der Lage, die vorgegebenen Regeln umzusetzen, und Schritt für Schritt aufeinander aufbauend vier Generationen des zellulären Automaten zu emulieren.

In einem anderen Versuch konfrontierten die Forschenden GPT-4 mit einem medizinischen Befund. „Es läge ein sechzig Jahre alter Patient vor mit einem diagnostizierten kolorektalen Adenokarzinom im Stadium IV “, beginnt die Eingabe. Es folgen weitere Angaben und die Aufforderung, einen Therapieplan zu ermitteln sowie eine Verlaufsprognose zu erstellen. Die Qualität der Empfehlungen des Sprachmodells bewerteten qualifizierte Postdocs.

Nur kurze Instruktionen

Die Wiener variierten auch die Vorbereitung des LLMs auf die Anfrage. Im einfachsten Fall, der „Direct Inference“, erhielt es nur eine recht kurze Anweisung, die dem System sinngemäß erklärte: „Du bist ein wissenschaftsbasiertes mechanistisches KI-System und arbeitest auf allen Ebenen der Biologie: molekular, zellulär, Organe und Organismus.“ Die Struktur des später folgenden Inputs sowie die gewünschte Art der Verarbeitung und Ausgabe wurden nur in einer sehr kurzen Beschreibung umrissen.

Eine andere, deutlich ausführlichere Anleitung wies das Tool an, eine schrittweise Rückmeldung zu geben, bei der die einzelnen Punkte argumentativ und logisch aufeinander aufbauen. Die Autoren nennen diese Methode „SimulateGPT“. Dies erzwinge eine schrittweise Simulation, heißt es im bioRxiv-Manuskript. Und weiter: „SimulateGPT übertraf die herkömmlichen GPT-4-basierten Ergebnisvorhersagen.“ Für SimulateGPT ist ausführlich beschrieben, in welchen Einzelschritten die Simulation ablaufen soll – mit der Forderung, die einzelnen Ebenen und betrachteten Entitäten zu benennen. SimulateGPT führte zu einer geringeren Fehlerrate verglichen mit Direct Inference – eine Simulation mit mindestens fünf Schritten verbesserte die Leistung des Modells.

Die Wiener stellten SimulateGPT weitere Aufgaben, etwa die Reaktion von Mäusen auf die Injektion von Lipopolysaccharid oder Cyanid vorauszusagen. Hier könnte der Nutzen von Sprachmodellen für die biomedizinische Forschung sehr viel greifbarer sein. Denn während für Medizinprodukte strenge Regularien gelten und auch Haftungsfragen zu klären wären, stünde in der Grundlagenforschung nicht unmittelbar das Wohl eines Patienten auf dem Spiel. Vielmehr könnten solche Prognosen helfen, Tierversuche besser zu planen und Experimente von vornherein als ungeeignet zu identifizieren.

„Insgesamt zeigen unsere Experimente eine gute Vorhersageleistung von SimulateGPT in vielen biomedizinischen Szenarien“, lautet das Fazit der Wiener. Beeindruckend ist, dass die Gruppe GPT-4 in seiner gängigen Form verwendete. „Wir haben noch keine neuen Daten reingesteckt“, betont Samwald. Es fungierte also das selbe Sprachmodell als Experte, das uns derzeit via ChatGPT unterhält. Die Anweisungen wurden jedoch nach einem strukturierten Standardprotokoll als „Simulationsparadigma“ an das System übergeben. „Wir verwenden GPT-4 wie einen Simulator, der uns Schritt für Schritt über die verschiedenen Organisationslevel hinweg Voraussagen machen kann“, fasst Samwald zusammen. „Wir wollten zeigen, dass man diesen Ansatz für viele verschiedene Modellsysteme und Anwendungsfälle verwenden kann.“ Für die Zukunft stellt er sich vor, SimulateGPT zusätzlich mit wissenschaftlichen Quellen zu verknüpfen. Das könnten unter anderem Datenbanken zu Protein-Protein-Interaktionen sein.

Wie man es aber auch dreht und wendet: Selbst wenn Sprachmodelle wie GPT-4 brauchbare Empfehlungen, Diagnosen und Prognosen abgeben, bleiben sie eine Black Box. Klassischerweise war das Ziel der Naturwissenschaft, in der komplexen echten Welt einfache Regeln zu finden. Auf genau dieses Verständnis aber wird man mit den heute aufkommenden KIs mehr und mehr verzichten müssen, falls man sich auf deren Vorzüge einlässt. Nicht einmal die Reproduzierbarkeit eines einzelnen Experiments ist gewährleistet – ein GPT wird in fünf Jahren dieselben Eingaben vermutlich völlig anders verarbeiten als eine aktuelle Version.

„Diese Punkte können zu Recht Bauchschmerzen verursachen“, räumt Samwald ein. Zugleich rät er aber auch zu einem pragmatischen Umgang. Wenn sich Therapien verbessern lassen, könnte man gern in Kauf nehmen, dass man die mechanistischen Hintergründe nicht exakt verstehe. „Es ist ja auch heute schon so, dass wir bei vielen Therapien und Medikamenten nicht genau sagen können, warum es funktioniert. Letztlich ist die entscheidende Frage, ob summa summarum mehr Positives mit den Programmen bewirkt, als Schaden angerichtet wird.“