Editorial

Niederlage für KI

(11.12.2023) Die Präzisionsonkologie würde von künstlicher Intelligenz stark profitieren. Noch sind ChatGPT und Co. menschlichen Experten aber weit unterlegen.
editorial_bild

Krebs ist nicht gleich Krebs: Selbst bei der gleichen Krebsart sind Krebszellen oft durch ein individuelles Muster von genetischen Veränderungen gekennzeichnet. Während Krebs früher in erster Linie durch Chemo­therapeutika bekämpft wurde, die unspezifisch alle sich schnell teilenden Zellen abtöten – und damit starke Nebenwirkungen aufweisen – versucht man heute der Individualität von Krebszellen Rechnung zu tragen. Therapien, die ganz gezielt spezifische Merkmale von Krebszellen zum Ziel haben, sind nicht nur besonders wirksam, sondern auch deutlich verträglicher als unspezifische Maßnahmen. In der sogenannten Präzi­sions­onkologie wird deshalb für jeden Patienten ein maßgeschneiderter Behandlungsplan erstellt.

Am Anfang steht dabei die Analyse der genetischen Veränderungen, die als Biomarker dienen. Davon ausgehend und auf der Basis von Erfahrungswerten und veröffentlichten Studien entwickeln die behandelnden Ärzte die aus ihrer Sicht erfolg­versprechendsten Therapie­optionen. Da in der Regel eine einzelne Person nicht alle relevanten Aspekte im Blick behalten kann, existieren an Kliniken Molekulare Tumor-Boards (MTB), in denen sich Mediziner verschiedener Fachdisziplinen zusammenschließen. Doch selbst sie kommen bei der Therapie­planung an ihre Grenzen, wenn Tumore ungewöhnliche Merkmals­kombinationen besitzen, deren Behandlung durch klinische Studien nur unzureichend abgedeckt ist.

Editorial

Automatisierte Studienanalyse

Hier kann künstliche Intelligenz weiterhelfen, genauer sogenannte Large Language Models (LLMs). Diese großen generativen Sprachmodelle basieren auf neuronalen Netzwerken und können natürliche Sprache verstehen, verarbeiten und auch selbst generieren. Ein auch in der breiteren Öffentlichkeit bekanntes LLM ist beispielsweise ChatGPT. Die LLMs werden mit riesigen Textmengen trainiert und können das Internet nach klinischen Studien und anderen klinisch relevanten Daten durchsuchen und daraus eine Therapie­empfehlung ableiten, die MTBs als Diskussionsgrundlage nutzen können.

„Neuartige LLMs sind in der Lage, automatisiert große Informationsmengen zu verarbeiten“, sagt Damian Rieke, der als Facharzt für Innere Medizin an der Medizinischen Klinik mit Schwerpunkt Hämatologie, Onkologie und Tumor­immunologie der Charité Universitätsmedizin Berlin arbeitet. „Insbesondere in der personalisierten Onkologie müssen zahlreiche klinische und präklinische Studien gesichtet und analysiert werden, um evidenzbasierte, personalisierte Therapie­optionen zu identifizieren. Es war bislang jedoch unklar, ob LLMs diese Arbeit automatisieren können.“ Gemeinsam mit Kolleginnen und Kollegen von verschiedenen Einrichtungen der Berliner Humboldt-Universität hat Rieke eine diagnostische Studie durchgeführt, um die Verlässlichkeit und Nützlichkeit von LLMs bei der onkologischen Therapie­planung zu untersuchen.

Vier LLMs im Test

Dazu hat das Forschungsteam zehn fiktive Krebspatienten mit einer jeweils spezifischen Kombination an genetischen Veränderungen erstellt und anschließend vier verschiedene LLMs genutzt, um nach Behandlungsoptionen für diese Patienten zu suchen. Als Kontrolle erhielt ein Krebsexperte die gleiche Aufgabe. Seine und die Vorschläge der LLMs wurden zum Abschluss dem MTB der Charité vorgelegt. Dieses sollte zum einen bewerten, mit welcher Wahrscheinlichkeit ein Behandlungsvorschlag von einer künstlichen Intelligenz stammte, zum anderen wie nützlich er im klinischen Alltag ist.

Von den zehn fiktiven Patienten hatten vier Lungenkrebs und sechs andere Krebsarten. Insgesamt wiesen sie 59 molekulare Veränderungen auf, der Median (Zentralwert) lag bei 3,5 Veränderungen pro Patient. Als LLMs kamen ChatGPT, Galactica, Perplexity und BioMedLM zum Einsatz. Während manche dieser Systeme wie ChatGPT über das Internet laufen, müssen andere fest auf einem Rechner installiert werden. Internet-basierte Systeme haben den Vorteil, dass sie überall verfügbar sind und regelmäßig aktualisiert werden. Allerdings müssen bei ihrer Nutzung sensible Patientendaten preisgegeben werden. Fest installierte Systeme haben im Bezug auf Datenschutz Vorteile, sind aber nicht von überall aus zugänglich und werden nicht automatisch aktualisiert.

Am Menschen gemessen

Während der Krebsexperte durchschnittlich vier Behandlungsoptionen für jeden Patienten fand, waren es bei der besten LLM mehr als dreimal so viele. Allerdings erreichten alle mithilfe von KI erzielten Ergebnisse nur sehr niedrige F1-Scores. Dieser Wert dient dazu, die Fähigkeit einer Methode zum Auffinden relevanter Informationen zu bewerten, wie Rieke erklärt: „Um diese Fähigkeit auszudrücken, berechnen wir Precision, Recall und F1-Score. Sind beispielsweise von 1.000 Datenpunkten 100 relevant, und eine spezielle Methode findet 10 relevante und 80 irrelevante Datenpunkte, dann ist die Precision 10/90 und der Recall 10/100. Der F1-Score ist das harmonische Mittel beider Werte und kann somit die Fähigkeit insgesamt besser beurteilen.“

Diese Bewertungen wurden in Beziehung auf die Ergebnisse des Experten berechnet. Dabei erreichte das beste LLM nur einen Wert von 0,19, und selbst eine Kombination der Ergebnisse verschiedener KIs verbesserte diesen Wert auf lediglich 0,29. Hinzu kam, dass die Mitglieder des MTB recht sicher die KI-basierten Vorschläge als solche identifizieren konnten. Ein wesentlicher Grund dafür war, dass von den LLMs oft nur unzureichend Referenzen und Belege angegeben wurden. In manchen Fällen hatte die KI sogar Referenzen halluziniert, also frei erfunden. Dennoch konnte für jeden fiktiven Patienten wenigstens eine hilfreiche Behandlungsoption mithilfe der LLMs gefunden werden. Zwei Strategien wurden überhaupt nur von künstlicher Intelligenz vorgeschlagen.

Trotz Mängeln nützlich

Diese Ergebnisse zeigen recht eindeutig, dass KI in Bezug auf Glaubwürdigkeit und Qualität noch stark hinter einem menschlichen Experten zurückliegt. Dennoch kann sie als Unterstützung bei der Entscheidungsfindung nützlich sein. Außerdem ist davon auszugehen, dass Wachstum und Weiter­entwicklungen der LLMs die Nützlichkeit weiter verbessern werden. So hat das kleinste Modell BioMedLM in der Studie am schlechtesten abgeschnitten. Und die Verwendung einer neuen Version von ChatGPT, die nach Abschluss der Studie zur Verfügung stand, hat gleich deutlich bessere Ergebnisse geliefert. Insbesondere war der Anteil an halluzinierten Referenzen mit der aktualisierten Variante deutlich geringer.

Gleichzeitig zeigt dieses Beispiel auch eine der Gefahren von Internet-basierten LLMs: Wird ein Modell zwischen zwei Analysen aktualisiert, sind frühere Ergebnisse eventuell nicht mehr reproduzierbar. „In unserer Studie konnten wir zeigen, dass LLMs prinzipiell in der Lage sind, personalisierte Therapie­optionen zu identifizieren. Die Performance war dabei jedoch deutlich schlechter als von menschlichen Expertinnen und Experten“, fasst Rieke zusammen. „Wir glauben, dass die schnelle Entwicklung von LLMs jedoch zu weiteren Verbesserungen führen wird, wobei die menschliche Kontrolle entscheidend bleibt.“

Larissa Tetsch

Benary M. et al. (2023): Leveraging large language models for decision support in personalized oncology. JAMA Network Open, 6: e2343689.

Bild: Pixabay/ThankYouFantasyPictures


Weitere Artikel zu künstlicher Intelligenz in der Biomedizin


- Künstlicher Retina-Diagnostiker

Eine künstliche Intelligenz erkennt in Aufnahmen des Augenhintergrundes, ob sich Herz- oder Nierenkrankheiten anbahnen.

- Fragen Sie den Arzt aus Silizium Ihres Vertrauens

Sprachmodelle wie ChatGPT könnte man als virtuelle Experten einsetzen, die Vorhersagen zu verschiedenen biomedizinischen Szenarien treffen, etwa wie sich Wirkstoffe in Tiermodellen verhalten. Damit ließen sich unnötige Tierversuche vermeiden. Wesentlich heikler wären Prognosen bei echten Patienten.

- Was KI von den Life Sciences lernen kann (Essay von Carsten Ullrich)

Maschinelle Lernprogramme können scheinbar komplexe Aufgaben lösen, dabei führt KI lediglich elementare Rechenschritte in einem Computer aus.

 




Letzte Änderungen: 11.12.2023