Editorial

Sequenz-Konfetti oder Lese-Marathon
RNA-Sequenzierung

Andrea Pitzschke


225a
Bei der Shredder-Challenge der amerikanischen Defense Advanced Research Projects Agency (DARPA) mussten die Teams einen Text aus Papierschnitzeln rekonstruieren. Bei der Short-Read-RNA-Sequenzierung wird statt Papier cDNA zerstückelt und wieder zusammengesetzt. Foto: DARPA

(11.03.2020) Die Short-Read-RNA-Sequenzierung ist derzeit die mit Abstand gebräuchlichste Methode für die Transkriptom­-Analyse. Long-Read-Techniken lesen zwar wesentlich längere Sequenzen, machen aber noch zu viele Fehler. Dennoch könnte ihnen die Zukunft gehören.

Noch Anfang des Jahrtausends bestimmten Hybridisierungs-Verfahren, wie zum Beispiel Microarrays, die Transkriptom-Analyse. Doch seit 2014 geht ihre Zahl kontinuierlich zurück, was man sehr schön in der Literatur-Datenbank PubMed verfolgen kann. Der Rückgang liegt aber nicht nur an den noch immer recht hohen Kosten für Microarrays, ihrem Arbeitsaufwand sowie der vorausgesetzten Genomsequenz. Der Hauptgrund ist die zunehmende Konkurrenz durch die RNA-Sequenzierung oder kurz RNAseq. Diese ist als Alternativmethode mit völlig anderem Konzept seit einigen Jahren auf der Überholspur unterwegs und lässt Microarrays und Co. weit hinter sich.

Für die RNA-Sequenzierung werden drei Methoden verwendet: Short-Read-RNAseq (srRNAseq), als älteste und gängigste Technik, sowie Long-Read- und Direct-RNAseq (lrRNAseq, dRNAseq), die etwas später auftauchten. Die Namensgebung ist etwas irreführend, denn sowohl bei srRNAseq und lrRNAseq werden nicht die RNA-Moleküle selbst, sondern deren amplifizierte cDNA-Kopien gelesen. Das dRNAseq-Verfahren produziert ebenso wie lrRNAseq lange Sequenzen. Prinzipiell sind alle RNA-Quellen aus bekannten und unbekannten Organismen für die RNA-Sequenzierung zugänglich. Bereits bekannte Genomsequenzen erleichtern aber insbesondere die Auswertung kurzer Sequenzen.

Bei der Wahl zwischen Short-Read oder Long-Read-Methoden spielt neben Kosten und Verfügbarkeit des Probenmaterials vor allem das Ziel der RNAseq eine entscheidende Rolle. So erkennt zum Beispiel die dRNAseq als einzige der drei Methoden Modifikationen an Ribonukleotiden. Steht die differenzielle Genexpression im Vordergrund, ist die srRNAseq die erste Wahl. Stammt das Ausgangsmaterial von einem unbekannten Organismus oder interessiert man sich für Spleiß-Varianten und qualitative Aussagen sind lrRNAseq oder dRNAseq besser geeignet.

Der grundlegende Ablauf der RNAseq ist aber bei allen drei Verfahren gleich und gliedert sich in die drei Schritte: Probenaufbereitung und Herstellung einer Sequenzier-Bibliothek, Sequenzierung sowie Datenauswertung.

Da das Transkriptom mehrzelliger Organismen sehr heterogen ist und auf äußere Einflüsse reagiert, sollten die Proben so schnell wie möglich entnommen werden. Um zum Beispiel Patientendaten vergleichen zu können, muss man eine gemeinsame Bezugsgröße auswählen, etwa die Position der Probennahme innerhalb eines Organs. Gute Wegweiser für die richtige Wahl sind Datenbanken, etwa die des Genotype-Tissue Expression (GTEx) Projekts (https://gtexportal.org/home).

Transkripte mit PolyA-Ende werden vor der RNAseq meist mithilfe der oligo(dT)-Hybridisierung angereichert, um sie von der ribosomalen RNA (rRNA) zu trennen, die das Gros der Gesamt-RNA ausmacht. Nicht-codierende RNAs ohne entsprechenden polyA-Schwanz fallen dabei jedoch unter den Tisch. Um auch sie von der rRNA abzusondern, geht man den umgekehrten Weg und entfernt die rRNA. So werden zum Beispiel beim Pull-out-Verfahren alle rRNA-Spezies mit spezifischen DNA-Oligos inkubiert, die einen Biotin-Rest tragen und komplementär zu bekannten rRNA-Sequenzen sind. Nach der Hybridisierung mit den entsprechenden RNA-Spezies werden die RNA-DNA-Komplexe mit Streptavidin-Kügelchen entfernt.

Am unkompliziertesten, aber nicht für alle Fragestellungen geeignet, sind Blutproben, die insbesondere für RNAseq-Studien des Immunsystems eingesetzt werden. So nutzen zum Beispiel auch die Forscher des gerade gestarteten EU-Projekts DIAMONDS Blut als Ausgangsmaterial (https://cordis.europa.eu/project/id/848196). Am Zentrum für medizinische Forschung (ZMF) der MedUni Graz werden hierfür 2.000 Blutproben analysiert, die in ganz Europa gesammelt werden. Basierend auf der Transkriptom-Analyse wollen die Forscher im Rahmen von DIAMONDS einen Blutschnelltest für die Diagnose von Entzündungs- und Infektionskrankheiten entwickeln.

Noch viel Handarbeit

Nina Schweintzger von der MedUni erklärt den Ablauf der RNA-Aufbereitung: „Mit 2,5 Milliliter Patientenblut, das direkt in ein Röhrchen mit vorgelegter Zelllyse-Lösung überführt wird, geht es los. Die RNA-Extraktion übernimmt ein Automat (QIAsymphony), der aus den 2,5 Millilitern Blut durchschnittlich sieben bis acht Mikrogramm RNA isoliert. Für die Herstellung der Sequenzier-Bibliothek, die derzeit noch manuell mit einem Kit erfolgt und zwei Tage Arbeit erfordert, verwenden wir 750 Nanogramm RNA. Der Rest der extrahierten RNA wird eingefroren.“

Die weiteren Schritte bis zur fertigen Sequenzier-Bibliothek sind weitgehend Routine: Nach der Isolation der Gesamt-RNA werden ribosomale RNA und Globin entfernt. Anschließend fragmentieren die Grazer die RNA, etwa durch unterschiedlich langes Erhitzen bei 94 °C, woraus durchschnittliche Insertgrößen von hunderfünfzig Basenpaaren resultieren. Nach der Synthese des ersten und zweiten cDNA-Strangs versehen die Wissenschaftler die Fragmente mit entsprechenden Adaptern und amplifizieren sie mithilfe einer PCR. Sobald die RNA revers transkribiert ist und als cDNA vorliegt, ist die heikelste Phase überstanden, in der der Abbau der RNA droht. Die Bibliotheken werden mit unterschiedlichen Hexanukleotiden getaggt (indexing), so dass mehrere Proben gepoolt und auf einer Bahn sequenziert werden können (multiplexing).

Noch wissen die Grazer nicht, welcher Projektpartner letztendlich die Sequenzierung der vorbereiteten Bibliotheken übernimmt. Sicher ist aber, dass sie mit der derzeit verbreitetsten Methode, der srRNAseq sequenziert werden. Die srRNAseq basiert auf der von der US-Firma Illumina eingeführten Sequencing-by-Synthesis-Technik. Herzstück des Illumina-Sequenzierers ist eine Flusszelle aus Glas mit feinen Flüssigkeitskanälen, durch die Polymerase, dNTPs und Puffer gepumpt werden. Ihre Innenwände sind mit kurzen Oligonukleotiden ausgekleidet, die komplementär zu den Adaptersequenzen der Probenmoleküle sind. Da zwei verschiedene Oligonukleotide beziehungsweise ein 3‘- und ein 5‘-Adapter vorhanden sind, kann jedes RNA-Molekül vorwärts und rückwärts gelesen werden.

Die RNAseq-Daten des DIAMONDS-Projekts werten schließlich Forscher am Imperial College London aus. Dazu ordnen sie die gelesenen RNA-Fragmente dem menschlichen Referenzgenom zu und suchen in den Daten mithilfe spezieller Lernalgorithmen nach krankheitsspezifischen Mustern.

Bislang stammen 95 Prozent aller publizierten RNAseq-Daten von Illuminas srRNAseq-Verfahren. Dessen größte Vorteile sind der hohe Durchsatz von einem bis zehn Milliarden Reads pro Lauf und die Tiefe der Sequenzierung (sequencing depth) von zwanzig bis dreißig Millionen Reads pro Probe. Einzelne Sequenzierfehler kommen hierdurch nicht zum Tragen, wodurch eine Genauigkeit von fast hundert Prozent erreicht wird. Hinzu kommt, dass man aufgrund der verwendeten, nur hundert bis dreihundert Basenpaare langen Fragmente selbst aus leicht degradierter RNA noch brauchbare Informationen herausholen kann.

Die kurzen Fragmente sind aber gleichzeitig auch die größte Schwäche der srRNAseq: Sie lassen sich nicht immer eindeutig einem Exon zuordnen, etwa wenn das Bruchstück keine einzigartige Region, sondern einen repetitiven Abschnitt repräsentiert. Transkript-Isoforme kann man nur dann unterscheiden, wenn die sequenzierten Fragmente sämtliche Spleißstellen abdecken – allzu oft kommt das aber nicht vor. Beim Menschen ist die Hälfte der Transkripte über 2,5 kb lang. Es wimmelt an Exemplaren mit Spleißstellen in über 1kb-Entfernung sowie alternativen Transkriptions-Start- und Endpunkten.

Bleibt also die Frage: Welche Kombination der zusammengesetzten RNA-Stücke ist real vorhanden und welche ist rein hypothetisch? Eine Antwort hierauf versucht die Synthetic-Long-Read-Technologie zu liefern. Deren Trick besteht darin, Proben in hunderte oder tausende Einzelreaktionen zu zerlegen, zum Beispiel in 384-Well-Platten oder winzigen Tröpfchen (Microdroplets). Im Idealfall liegt pro Well oder Tröpfchen nur eine Transkript-Isoform pro Gen vor. Mit sogenannten Unique Molecular Identifiers (UMIs) wird jedes Transkript mit einem eigenen Barcode markiert, so dass die aufgeteilten Reaktionen vereint und in einem einzigen Aufwasch sequenziert werden können.

Dass die RNA beziehungsweise cDNA bei der srRNAseq zerstückelt wird und die erhaltenen Sequenzen anschließend wieder aufwändig digital zusammengekittet werden müssen, lässt sich nicht vermeiden. Die hohe Lesehäufigkeit (sequencing depth oder coverage) und geringe Fehlerrate der srRNAseq ist nur mit kurzen RNA-Fragmenten möglich.

225b
Der RNAseq-Experte Christopher Vollmers von der Jack Baskin School of Engineering der UC Santa Cruz ist überzeugt vom großen Potenzial der Long-Read-RNA-Sequenzierung. Foto: Labor Vollmers

Bei der lrRNAseq fällt die Fragmentierung dagegen weg: Die ein bis fünfzig Kilobasenpaare langen Sequenzen werden an einem Stück gelesen. Das A und O dafür ist hochwertige, intakte RNA ohne störende Verunreinigungen. Eine Reverse Transkriptase mit Template-Switching-Aktivität schreibt die RNA in cDNA um. Das Enzym setzt am polyA-Schwanz der RNA an, geleitet von einem oligo(dT)-Primer, und liest bis zum 5‘-Ende der mRNA durch. Dort angekommen, fügt es an die so geschaffene Erststrang-cDNA ein Schwänzchen aus Deoxycytidinen an. Hieran kann ein olido(dG)-Primer hybridisieren, den das Template-Switching-Enzym zur Synthese des zweiten Strangs nutzt. Die Reverse Transkriptase liest also erst die mRNA ab und danach den von ihr selbst erzeugten ersten Strang der cDNA. Mithilfe von Adaptern an oligo(dT)- und oligo(dG)-Primern wird die doppelsträngige cDNA anschließend amplifiziert.

Der Sequenzierer für die lrRNAseq wurde von der kalifornischen Firma Pacific Biosciences (PacBio) entwickelt. Die zu sequenzierende Probe wird auf einen Chip mit winzigen Vertiefungen aufgetragen. Am Boden dieser Nanowells ist jeweils eine Polymerase untergebracht, die eines von vier fluoreszenzmarkierten Nukleotiden in die Probe einbaut. Ein Detektor registriert das hierdurch erzeugte Signal und leitet es an eine Auswerteeinheit weiter, die es in eine RNA-Sequenz übersetzt. Eigentlich wollte der Marktführer Illumina den derzeit noch ziemlich kleinen Konkurrenten PacBio Ende letzten Jahres übernehmen. Anfang 2020 ist der Deal aber am Veto der englischen Aufsichtsbehörde CAM (Competition and Markets Authority) gescheitert, die die Ausübung eines Monopols durch Illumina befürchtete.

Die lrRNAseq schafft nicht mehr als etwa eine halbe Million bis zehn Millionen Reads pro Lauf und produziert zehn- bis hundertmal mehr Fehler als das srRNAseq-Verfahren von Illumina. Sie eignet sich aber umso besser zur De-novo-Sequenzierung und Identifizierung von Transkript-Isoformen. Paradebeispiel hierfür sind Transkripte des extrem polymorphen Haupthistokompatibilitäts-Komplexes (MHC) an denen die srRNAseq scheitert.

Mit der lrRNAseq könnte man auch spezifische Muster in Vorkommen und Verteilung von Transkript-Isoformen erkennen und hätte damit ein neues Werkzeug für die Krankheitsdiagnose. So werden diverse Krankheiten, zum Beispiel die myotone Dystrophie, die häufigste Muskelkrankheit von Erwachsenen, durch Fehler beim Spleißen verursacht. Um diese mit der lrRNAseq aufspüren zu können, muss jedoch deren Fehlerrate weiter sinken.

Erhöhte Sequenzier-Genauigkeit

Wie sich dies erreichen lässt, erläutert die Gruppe des RNAseq-Spezialisten Christopher Vollmers von der University of California Santa Cruz in einem Review (Philos Trans R Soc Lond B Biol Sci. 374 (1786): 20190097). Ein Ansatz ist das wiederholte Sequenzieren des gleichen RNA-Moleküls, um einzelne Fehler so weit wie möglich zu eliminieren. Dafür wird die cDNA über Blunt-End-Ligation zunächst zirkularisiert. Mittels Rolling Circle Amplification synthetisiert man aus diesen lange, konkatemere Moleküle, die sequenziert werden. Ein Computerprogramm berechnet aus diesen schließlich eine Konsensus-Sequenz.

Mit dieser sogenannten Rolling-Circle-Amplification-to-Concatemeric-Consensus-(R2C2)-Methode erzielte Vollmers Team eine lrRNAseq-Genauigkeit von knapp 98 Prozent (PNAS 115 (39): 9726-31). Vollmers ist daher überzeugt, dass der Trend in Richtung lrRNAseq gehen wird und schreibt in seinem Review: „There is little doubt [...] that full-length transcriptome sequencing using long-read technologies is the future of transcriptome annotation...

Ein paar Steine liegen aber noch auf dem Weg dorthin und schon der Beginn der lrRNAseq verläuft meist ziemlich holprig. Vollmers weist zum Beispiel darauf hin, dass nach wie vor nicht geklärt ist, welches die geeignetste RNA-Extraktionsmethode für lange RNA-Fragmente ist. So gefährden zum Beispiel Guanidinium- sowie Phenol-Spuren aus den häufig eingesetzten Trizol-Mixturen die Integrität der RNA, und auch bei der Reinigung mit Säulchen riskiert man, dass die RNA fragmentiert. Vollmers empfiehlt deshalb eine systematische Analyse der verschiedenen Techniken.

Eine weitere Herausforderung ist die Längenschieflage (Length Bias), die aus der Aufbereitung der RNA vor der Sequenzierung resultiert. Die Reverse Transkriptase mit Template-Switching-Aktivität produziert nur ein einziges Molekül doppelsträngiger cDNA pro ursprünglichem RNA-Molekül. Um ausreichend cDNA für die Sequenzierung zu erzeugen, muss man die RNA amplifizieren. Da aber bei der PCR kurze Produkte gegenüber langen bevorzugt sind, verzerrt sich die ursprüngliche Transkript-Zusammensetzung zugunsten kurzer Transkripte sowie verkürzten Artefakten langer Transkripte. Hinzu kommt, dass die direkte RNA-Sequenzierung bei circa zwei Kilobasenpaaren langen Fragmenten an ihre Grenze stößt und hierdurch längere RNA ebenfalls diskriminiert wird.

Längenschieflage erkennen

Mit sogenannten Spike-in-RNAs lässt sich der Length Bias zwar nicht eliminieren, man kann seine Größenordnung aber zumindest abschätzen. Spike-in-RNAs sind definierte RNA-Moleküle bekannter Länge, die der ursprünglichen Probe zugesetzt werden. Da man die Ausgangslänge der Spike-in-RNA kennt und mit der Länge nach der Amplifikation vergleichen kann, erhält man einen Anhaltspunkt für die durch die PCR verursachte Längenschieflage.

Die von der britischen Firma Oxford Nanopores eingeführte direkte Sequenzierung kommt ohne markierte Nukleotide aus. Stattdessen werden während der Herstellung der Sequenzier-Bibliothek Adaptersequenzen an die RNA ligiert. Die Probe wird anschließend auf eine Flusszelle mit winzigen Nanoporen gegeben, in denen ein Motorprotein sitzt. Das Motorprotein dockt an die Adaptersequenz an und hangelt sich an der RNA von Nukleotid zu Nukleotid. Hierdurch schiebt es die RNA sukzessive durch die Nanopore und verursacht Änderungen in der Stromstärke, die für das jeweilige Nukleotid typisch sind.

Die RNAseq wird insbesondere auch für die Expressionsanalyse von Einzelzellen eingesetzt (scRNAseq). Anstatt in einer Gewebe- oder komplexen mehrzelligen Probe nur das Gesamtbild der RNA zu erfassen, liefert die scRNAseq das Transkriptom jeder einzelnen Zelle. Dafür muss die Probe aber erst einmal in Einzelzellen zerlegt werden. Dies geschieht entweder durch mechanischen Aufschluss oder enzymatisch, zum Beispiel mit Kollagenase. Die in der Zellsuspension enthaltenen Zellen werden häufig mit einem Durchflusszytometer voneinander getrennt und landen als einzelne Zellen in den Näpfchen einer Mikrotiterplatte, die mit Lysepuffer gefüllt sind.

Markiert mit Barcode und UMI

Es ist auch möglich, die Zellsuspension so zu verdünnen und über einem Mikrochip zu verteilen, dass einzelne Zellen jeweils in einem Nanowell aufgefangen werden. In diesen warten bereits poly-d(T)-Moleküle für das mRNA-Capture sowie ein Well-spezifischer Barcode und ein Unique Molecular Identifier, die während der cDNA-Synthese eingebaut werden. Für die eigentliche Sequenzierung werden die Reaktionsansätze in den Nanowells vereint. Mithilfe von Barcode (welche Zelle) und UMI (welches Transkript und wie viel) lassen sich die einzelnen RNAs rückverfolgen. Die Drop-Seq Methode nutzt ein ähnliches Prinzip, die Einzelzell-Reaktionen finden jedoch in winzigen Tröpfchen und nicht in Nanowells statt.

Die Einzelzellisolierung überstehen nicht alle Zellen unbeschadet, was sich auch auf die Qualität der RNA auswirken kann. Eine Abschätzung des angerichteten Schadens ist aber anhand des Mengenverhältnisses von cytoplasmatischer zu mitochondrialer RNA möglich: Cytoplasmatische RNA geht in angeschlagenen Zellen leichter verloren als mitochondriale. Da in den einzelnen Zellen wenig Startmaterial für die scRNAseq vorhanden ist, ist auch das Hintergrundrauschen in den erhaltenen Sequenzdaten entsprechend hoch. Reduzieren lässt sich dieses mit speziellen Computerprogrammen. Besonders wenig RNA ist in Blutzellen vorhanden, sie eignen sich deshalb kaum für die scRNAseq.

Ist die RNA sequenziert, geht es an die Auswertung der Sequenz-Daten. Da diese komplex genug sind, sollte man unnötigen Ballast, der die Analyse erschwert, vorher entfernen. Im ersten Schritt heißt es daher, Rohdaten filtern und dabei qualitativ ungenügende Sequenzen oder Sequenzen von Fremdorganismen entfernen. Gleiches gilt für PCR-Artefakte, Adaptersequenzen oder sonstige Kontaminationen.

Anhand einer Referenz, etwa einer Genomsequenz oder Transkriptom-Daten, die als Puzzlevorlage dient, versucht man danach, die Reads ihrem Ursprung zuzuordnen. Je länger sie sind, desto einfacher ist dies. Unterstützt wird man hierbei von verschiedenen Analyse-Programmen, die sich in Genauigkeit und Rechenzeitaufwand unterscheiden. Wenn die Lesetiefe (read depth) ausreichend hoch ist und es hinnehmbar ist, dass schwach exprimierte Gene übersehen werden, kommen für Expressionsstudien auch Quantifizierungs-Methoden ohne Alignment in Frage (BMC Genomics 19: 510).

Bei differenziellen Genexpressionsstudien ist die Normalisierung der Rohdaten wichtig. Sie geht davon aus, dass der Großteil an Genen konstitutiv exprimiert wird und errechnet so für jede Probe einen Skalierungsfaktor. Hierdurch werden quantitative Daten unterschiedlicher Proben miteinander vergleichbar.



Letzte Änderungen: 11.03.2020