Editorial

Next-Generation-Proteomik: Auswertung von Proteomik-Daten mit Künstlicher Intelligenz
Verborgene Muster in Peptidfragmenten

Andrea Pitzschke, Laborjournal 09/2022


(06.09.2022) Die Analyse von Proteinproben mit Flüssigchromatographie und Massenspektrometrie ist den Proteomikern inzwischen in Fleisch und Blut übergegangen. Viel größeres Kopfzerbrechen bereitet ihnen die Auswertung der Massenspektren. Ohne Bioinformatik und künstliche Intelligenz stünden sie hier auf verlorenem Posten.

Das Genom der Maus haben Forscher schon 2002 entschlüsselt. Zwei Jahre danach kamen systematische Transkriptomanalysen von Geweben dazu. Allesamt heiße Daten, nicht nur für Tierforschung, sondern auch für Medizin und Pharmakologie. Doch ein Gen oder eine mRNA muss für eine Zelle noch nicht viel bedeuten. Genom- und Transkriptomdaten wären ungleich wertvoller, könnte man sie mit Proteomdaten komplementieren: gewebsspezifisch, quantitativ, und möglichst ergänzt mit Daten zu posttranslationalen Modifikationen.

Dass das tatsächlich geht, zeigen die Daten eines süddeutschen Forscherkonsortiums unter Leitung von Bernhard Küster von der Technischen Universität München, der sich auf Proteomik und Bioanalytik spezialisiert hat. Dank Massenspektrometrie (MS), Bioinformatik, künstlicher und menschlicher Intelligenz liegt das Maus-Proteom mitsamt den Proteomen von 41 gesunden Maus-Geweben sowie 66 murinen Krebszelllinien inzwischen auf dem Tisch beziehungsweise in öffentlich zugänglichen Datenbanken.

bild
Das Ausknobeln von Algorithmen für die Auswertung von Massenspektren scheint tatsächlich Spaß zu machen. Die Bioinformatiker Mathias Wilhelm (l.), Tobias Schmidt (m.) und Siegfried Gessulat von der Technischen Universität München entwickelten zusammen mit Bernhard Küsters Gruppe das Proteomik-Tool Prosit. Foto: A.Eckert/TUM

Für 17.000 der knapp 22.500 Protein-codierenden Gene der Maus herrscht durch die Arbeit der Gruppe Gewissheit darüber, dass sie tatsächlich exprimiert werden. Die Proteine der Maus enthalten zigtausende Phosphorylierungs-Stellen. Die von dem Team untersuchten 66 Pankreas-Krebszelllinien der Maus sprechen auf die Behandlung mit 400 getesteten Medikamenten unterschiedlich hinsichtlich Phänotyp und Proteom an. Hieraus kristallisieren sich mögliche Biomarker für Resistenzen oder die Wirksamkeit von Krebsmedikamenten heraus (Nat. Methods 19: 803-11).

Dass Küsters Team das humane Proteom bereits 2014 kartiert hat, ermöglicht detaillierte Vergleiche beider Organismen (Nature 509: 582-7). 2020 kam das MS-basierte Proteom von Arabidopsis thaliana hinzu (Nature 579: 409-14). Parallele Analysen von Gewebeproben hinsichtlich ihrer Transkriptome (RNAseq) und Proteome erleichtern die Suche nach Gemeinsamkeiten – treten die gleichen Phänomene in Maus, Mensch und Arabidopsis auf, sind sie womöglich universell gültig.

Bei der MS-basierten Proteomik werden Proteinproben so vollständig wie möglich in Massenspektren erfasst, die danach mit komplexen Algorithmen nach Gesetzmäßigkeiten durchsucht werden. Dass Proteine meist robuster sind als RNA und in höheren Molekülzahlen vorkommen als die entsprechenden Transkripte, erleichtert die Analyse. Andererseits lassen sich Proteine, anders als Nukleinsäuren, nicht amplifizieren. Was während der Aufarbeitung verloren geht, denaturiert oder im Hintergrund dominanterer Signale unsichtbar bleibt, wird im Endergebnis fehlen. Dennoch sind zumindest für größere Zellen wie HeLa-Zellen bereits Einzelzell-Proteomanalysen von etwa 2.000 Proteinen möglich (siehe hierzu auch das Interview mit Ruedi Aebersold in LJ 7-8/2022 - Link). Proteinvorkommen einfach aus quantitativen RNAseq-Analysen abzuleiten, geht leider nicht, denn Transkripte werden unterschiedlich effizient translatiert. Außerdem variieren sowohl Transkripte als auch Proteine in ihrer Stabilität.

Fragmentierte Peptid-Ionen

Die Massenspektrometrie-basierte Proteomik beginnt mit dem Probenaufschluss und dem kontrollierten Proteinverdau. Die in der Probenflüssigkeit enthaltenen Peptide werden in einer High-Performance-Flüssigchromatographie (HPLC) getrennt und danach per Elektrospray-Ionisation in winzige geladene Tröpfchen überführt, die sofort verdampfen. Die gasförmigen Peptid-Ionen treten in ein Massenspektrometer ein, in dem sie meist nochmals fragmentiert und anhand ihres Masse-zu-Ladungsverhältnisses (m/z) separiert werden, bevor sie auf einen Detektor treffen, der schließlich ein Massenspektrum aufzeichnet. Massenspektren von nichtfragmentierten Peptid-Ionen bezeichnet man als MS1-Spektren, diejenigen von fragmentierten Peptid-Ionen als MS2- oder MS/MS-Spektren. Wer genauer wissen will, wie dies im Detail funktioniert, findet in einem lesenswerten „Beginners-Guide-Artikel“ von Ankit Sinja und Matthias Mann vom Max-Planck-Institut für Biochemie alle weiteren Informationen (Biochem. 42: 64-9).

Dieser praktische Teil der Proteomik ist inzwischen aber mehr oder weniger Routine –die wesentlich größere Herausforderung ist die anschließende Analyse der MS-Spektren. Um zu entschlüsseln, welche Peptide beziehungsweise Proteine sich hinter den MS-Daten verbergen, nutzen Proteomiker meist Vergleichsspektren. Wie viele Informationen sie aus einem Probenspektrum herauslesen können, hängt sehr stark davon ab, welche Vergleichsdaten ihnen zur Verfügung stehen und wie vollständig diese sind. Die umfangreichste Datenbank mit Millionen von identifizierten MS2-Spektren sowie bioinformatischen Analysewerkzeugen findet sich auf der Plattform PRIDE (Nucleic Acids Res. 47: D442-d450).

Proteomiker müssen hierzu aber nicht immer auf reale Vergleichsdaten zurückgreifen, sie können auch plausible In-silico-Vorhersagen zu Rate ziehen. Peptidketten brechen am ehesten an den energieärmsten Bindungen. Das sind gewöhnlich Amidbindungen, sodass ein ganzer Strauß kurzkettiger Peptidfragmente entsteht. Da die Festigkeit der einzelnen Amidbindungen variiert und berechenbar ist, lässt sich ein wahrscheinlichstes Zerfallsmuster und somit auch ein MS2-Spektrum konstruieren. Bei den Vorhersagen wird auch das Umfeld miterfasst, da entferntere Proteinregionen die Stabilität beeinflussen können. Datenbanken aus Vergleichsspektren benötigen also als Bausubstanz „nur“ Proteinsequenz-Datensätze, und die wiederum sind aus Genom- oder Transkriptomdaten ableitbar. Die MS2-Spektren einer Probe werden mit den Vergleichsspektren abgeglichen. Aber nicht jeder „Match“ muss echt sein. Um die Fehlerquote irrtümlicher Zuordnungen einschätzen zu können, kann man den Abgleich parallel mit einer „Nonsense-Datenbank“ durchführen, in der die Aminosäuresequenzen in umgekehrter Reihenfolge aufgeführt sind (Mol. Cell. Proteomic 8: 2405-17).

Vorhergesagte MS2-Spektren

Je stärker die experimentellen Spektren den vorhergesagten ähneln, desto wahrscheinlicher und glaubwürdiger ist eine Übereinstimmung. Ähnlichkeit kann hier auch ganz konkret die Anzahl an gemeinsamen Peaks bedeuten (Cell Syst. 12: 759-70). Als Vergleichsdatenbank kann zum Beispiel das Tool Prosit des ProteomeTools-Projekts dienen, das der Bioinformatiker Mathias Wilhelm von der Technischen Universität München zusammen mit Küster entwickelte (proteometools.org). Prosit enthält vorhergesagte M2-Spektren von Organismen, deren Proteine mit verschiedenen Proteasen fragmentiert wurden (Nat. Methods 16: 509-18; proteomicsdb.org/prosit).

Experimentelle MS-Spektren sind nie hundertprozentig identisch und auch das absolute Matching mit vorhergesagten Referenzspektren ist nur eine Illusion. Dafür spielen zu viele Variablen in die Vorhersage hinein. So können neben posttranslationalen Modifikationen auch Gerätespezifika das Fragmentierverhalten beeinflussen. Das Tool pdeep3 (bio.tools/pdeep3) berücksichtigt verschiedene Massenspektrometer-Modelle und Kollisionsenergien (Anal. Chem. 93: 14: 5815-22). Die Entwickler von pDeep3 waren schon an der Urversion pDeep beteiligt, die erstmalig erlaubte, MS2-Fragmentspektren nur anhand der Proteinsequenzen vorherzusagen (Anal. Chem. 89: 12690-97). Leider stecken in Spektren- beziehungsweise Fragmentiermuster-Vorhersagen – anders als in tatsächlich aufgezeichneten Referenzspektren – keine quantitativen Informationen.

Eine Proteomik-Studie generiert mehrere Gigabyte Daten, die nur mit Unterstützung durch künstliche Intelligenz (KI) ausgewertet werden können. Während Forscher einzelne Hypothesen aufstellen und überprüfen, nimmt sich die KI Berge von Datensätzen vor und leitet daraus Gesetzmäßigkeiten ab. Dazu benötigt sie Training-Sets, die möglichst umfangreich sein sollten. Aus ihnen kann die KI relevante Parameter eigenständig definieren und vermessen. Dank dem sogenannten Transfer Learning muss man aber nicht für jedes neue Projekt zurück auf die Startposition, vielmehr können bereits trainierte Modelle weiterverwendet werden.

Matthias Mann, der die Forschungsabteilung Proteomics und Signaltransduktion am Max-Planck-Institut für Biochemie in Martinsried leitet, verdeutlicht das Transfer Learning am Beispiel von posttranslationalen Modifikationen: „Wir können mit nur ein paar hundert Beispielspektren von Peptiden mit bekannter posttranslationaler Modifikation die Fragmentierungsspektren weiterer modifizierter Peptide vorhersagen. Wir können auch die Voraussagen auf das spezielle LC-MS-System, das man im Labor hat ‚ ‚personalisieren’. Auch dazu braucht man nur ein paar hundert Spektren.“

Bedeutet das also, dass sich anhand weniger hundert Beispielspektren eines neuen LC-MS-Systems Vorhersagen, die für ein bisheriges LC-MS-System gemacht wurden, übernehmen lassen? Das würde Ergebnisse verschiedener Studien vergleichbarer machen, und auch ein etwaiger Gerätewechsel würde sich nicht so stark auswirken. „Ja“, bestätigt Mann. „Wir können in der Tat die Ergebnisse von einem Massenspektrometer auf ein anderes übertragen. Allerdings nur die Retentionszeit sowie das Fragmentierungsmuster und nicht notwendigerweise die Quantifizierung, das haben wir noch nicht angeschaut.“

Die Strategie des Transfer Learning half auch Bernhard Renards Gruppe am Hasso-Plattner-Institut der Universität Potsdam weiter. Ausgehend von Phoshoproteom-Datenanalysen aus über 19 Millionen MS2-Spektren konnte sie Peptid-Quervernetzungen identifizieren (Nat. Mach. Intell. 4: 378-88).

Wenn Ergebnisse mittels Transfer Learning von einem Projekt ins nächste übernommen werden, besteht da nicht die Gefahr, dass sich ein Fehler einschleicht, den man nie wieder los wird? Ungenauigkeiten, irrtümliche Zusammenhänge und maskierte tatsächliche Zusammenhänge wären die Folge. Was Matthias Mann dazu sagt, klingt beruhigend: „Man muss natürlich aufpassen, dass man die Daten nicht überinterpretiert. Technisch gesehen ist das Problem, dass man zu viele Spektren zulässt, also eine zu große False Discovery Rate hat, aber generell ist das Transfer Learning sehr robust.“

Modulares Programm

Einen einfachen Zugang zu künstlicher Intelligenz und Transfer Learning bei der Vorhersage von Peptid-Eigenschaften liefert das Tool AlphaPeptDeep, das Manns Team aktuell auf bioRxiv zur Diskussion stellt (doi: 10.1101/2022.07.14.499992). Neben den gängigen Eigenschaften, die in der MS-basierten Proteomik von Interesse sind, etwa Fragmentintensitäten, kann es prinzipiell jede beliebige von der Aminosäuresequenz abhängige Eigenschaft eines Peptids vorhersagen. Das Programm ist modular aufgebaut und lässt sich erweitern. „Es enthält einen ‚Model Shop‘ mit dem man mit ein paar Zeilen Code sein eigenes Modell herstellen kann“, erklärt Mann.

Für die Erkennung und Behandlung von Krankheiten eröffnet die mit künstlicher Intelligenz gepaarte Proteomik ganz neue Perspektiven. Biomarker sind in den meisten Fällen Proteine, auch Arzneiwirkstoffe sind vor allem gegen Proteine gerichtet. In Biopsie-, Blut- oder anderen Proben eines Patienten erkannte Proteinkonstellationen, die charakteristisch für eine Krankheit oder deren Entstehung sind, liefern wichtige Hinweise für die Behandlung und können diese beschleunigen. Spricht eine bestimmte Therapie bei einer Gruppe von Patienten nicht an, kann die künstliche Intelligenz die Proteomdaten dieser Patienten mit den Daten einer erfolgreich behandelten Gruppe vergleichen. Der KI bleiben auch subtile Muster nicht verborgen. „Drei Peptide in einem bestimmten Konzentrationsverhältnis zueinander, gepaart mit übermäßigen Phosphorylierungen an einem vierten Protein“, könnte etwa eine Gesetzmäßigkeit lauten, auf die zum Beispiel Deep-Learning-Verfahren beim Vergleich der zwei Gruppen stoßen. In den Proteomdaten des nächsten Patienten kann man gezielt nach dieser Konstellation beziehungsweise diesem Biomarker-Panel suchen.

Ziel ist es letztendlich, die mit KI analysierten Proteomdaten eines Patienten mit anderen Daten zu ergänzen, die etwa aus der RNA-Sequenzierung oder der Bildanalyse von Zellen oder Geweben stammen. Hierdurch wäre nicht nur eine weit umfassendere Analyse des jeweiligen Krankheitsbildes möglich als mit den einzelnen Verfahren, sondern auch eine besser auf den einzelnen Patienten ausgerichtete Therapie.