Editorial

Next Gen Challenges

Sequenzdaten sind heute schnell gewonnen. Kompliziert wird es aber, wenn man Genome einzelner Zellen auf Mutationen hin untersuchen will. Und dies ist nur eine unter vielen neuen Herausforderungen der nächsten Sequenzier-Generation.
editorial_bild

(14. Juni 2013) Galt es vor zehn Jahren noch als Sensation, wenn ein Organismus in jahrelanger Kleinarbeit durchsequenziert worden war, so braucht man heute dank moderner Methoden nur noch wenige Tage, um die Basenabfolge eines kompletten Genoms auf seinen Rechner zu bekommen. Doch lassen sich diese Fortschritte auch nutzen, um einzelne Zellen zu sequenzieren? Für viele Fragestellungen kann es nämlich sinnvoll sein, nicht Konsensussequenzen aus mehreren Ansätzen zu ermitteln oder ein DNA-Gemisch aus vielen Zellen aufbereiten zu müssen, sondern die einzelne Zelle für sich zu betrachten. So etwa für den Ökologen, der eine Probe mit Einzellern aus dem Teich mitbringt und diese Organismen nicht im Labor kultivieren kann. Ließen sich einzelne Zellen separieren und deren Kerninhalt sequenzieren, wäre für manch ein Freilandprojekt viel gewonnen. Oder man denke an die Entstehung von Krebs. Gewöhnlich geht man davon aus, dass jede menschliche Zelle ein identisches Genom hat. Doch in Tumorgewebe ist genau das nicht selbstverständlich. Sogar innerhalb des Tumors können unterschiedliche Mutationen aufgetreten sein. Dann gehen wichtige Informationen verloren, wenn beim Sequenzieren mehrerer Zellen einzelne Ausreißer untergehen.

Kettenabbruch

Noch bis in dieses Jahrtausend hinein waren „DNA-Sequenzierung“ und „Sanger“ im Laboralltag synonyme Begriffe. In den späten 1970er Jahren hatten Frederick Sanger und Kollegen die Sequenziermethode vorgestellt, die später zu einer Standardanwendung der Genetik werden sollte. Ein DNA-Strang wird durch komplementäre Basen verlängert, bis ein fluoreszenzmarkiertes Nukleotid hinzugefügt wird, das eine weitere Strangsynthese verhindert. Daher auch der Name „Kettenabbruchreaktion“. Geschieht das oft genug im Reaktionsgefäß, erhält man Fragmente unterschiedlicher Längen, die man auf einem Gel auftrennen kann. Anhand der Fluoreszenz lässt sich die zuletzt angehängte Base identifizieren, während die Position der Bande auf dem Gel mit der Position dieser markierten Base korreliert. Doch bevor die Kettenabbruchreaktion startet, muss man dafür sorgen, dass sich im Reaktionsvolumen eine große Menge identischer DNA-Moleküle befindet. Denn für jede Basenposition müssen ja nach der Reaktion genügend Fragmente zusammenkommen, um eine Bande mit ausreichend starkem Fluoreszenzsignal auf dem Gel zu haben. Es genügt daher nicht, einfach nur DNA aus einer Probe zu isolieren. In der Regel wird man Fragmente in E. coli klonieren und für jede Sequenz eine eigene Kolonie picken. Mittels PCR wird das zu sequenzierende Fragment dann aus dem Vektor heraus amplifiziert. Eine Menge Arbeit also.

Vladimir Benes weiß davon ein Lied zu singen. In den frühen 1980er Jahren schrieb er in Prag seine Diplomarbeit im Labor von Vaclav Paces, der damals die Sanger-Methode hinter dem eisernen Vorhang etablierte. Heute leitet der Biochemiker die Genomics Core Facility am European Molecular Biology Laboratory (EMBL) in Heidelberg. DNA-Molekülen ihre Basenabfolge zu entlocken, gehört seit Jahrzehnten zu seinem Arbeitsalltag. Noch immer bieten Firmen wie ABI/Life Technologies oder Beckmann Sequenzierer an, die nach der klassischen Sanger-Methode arbeiten. Das Verfahren habe auch heute noch seinen Platz, meint Benes, doch biete es keine Möglichkeiten für besondere Weiterentwicklungen. „Sie sind noch immer an das Format der Mikrotiterplatte gebunden“, stellt er fest. Will man ganze Genome sequenzieren, fällt es dann kaum ins Gewicht, ob eine solche Platte nur 96 oder einige hundert Wells für Einzelansätze bietet. Benes macht deutlich, dass man für größere Genomprojekte eine halbe Ewigkeit „sangern“ müsste: „Ein 96-Well-Kapillar-Sequencer müsste 80 Jahre lang ohne Unterbrechung laufen, um dieselbe Menge an Information zu generieren, die ein HiSeq 2000 Illumina Sequencer in acht Tagen produziert.“ Somit kommt die Sanger-Methode eigentlich nur noch in Frage, wenn man bekannte Sequenzen vergleichen möchte und immer nur wenige Proben auf einmal sequenziert.

Für große „Omics“-Projekte ist Sanger heute nicht nur zu zeitaufwändig, sondern auch zu teuer. An Einzelzellsequenzierung ist erst gar nicht zu denken, besonders dann nicht, wenn man, wie in der Krebsforschung, an kleinsten Unterschieden interessiert ist. Beim Klonieren und der PCR können sich nämlich Fehler einschleichen. Dem amplifizierten Material sieht man dann nicht mehr an, welche Unterschiede zum Referenzgenom auf Mutationen zurückzuführen sind und welche lediglich Methoden-bedingte Artefakte darstellen.

Echtzeit-Sequenzierung mit Licht

Moderne Verfahren beruhen letztendlich auf ähnlichen Prinzipien wie die Sanger-Methode. Der Weg zur Ermittlung der Basenabfolge führt noch immer über die Synthese eines komplementären Strangs. Während die eigentliche Sequenzierung bei Sanger aber erst nach der Strangsynthese durch Auftragen auf ein Gel erfolgt, erfassen Next Generation Sequencing-Methoden (NextGen) die jeweilige Base im Moment ihres Einbaus. Das System schreibt gewissermaßen in Echtzeit mit.

2005 präsentierte Roche den ersten 454-Sequencer. Das Prinzip beruht auf der Pyrosequenzierung. Es werden modifizierte Nukleotide zur Synthese des komplementären Strangs verwendet, die, sobald sie eingebaut werden, ein Lichtsignal generieren. In jeder Runde ist nur eine Base in der Lösung vorhanden, die entweder an die nächste freie Position passt und aufblitzt oder nicht passt und dunkel bleibt. Dann wird das Reaktionsgefäß ausgewaschen und die nächste Base zugegeben. Eine Schwäche dieser Methode: Kommt dieselbe Base mehrmals hintereinander in der Sequenz vor, so werden diese bei der Pyrosequenzierung auch gleichzeitig hintereinander eingebaut. Anhand der Stärke des Lichtsignals lässt sich zwar theoretisch auf die Anzahl der eingebauten Basen schließen. Bei größeren Polynukleotidabschnitten aber wird es mitunter schwierig. So ist es nicht immer möglich, beispielsweise zwischen 11 oder 12 aufeinanderfolgenden Guaninen zu unterscheiden.

Da man auch für die 454-Methode eine ausreichend große Menge DNA-Template benötigt, muss die DNA auf die Sequenzierung vorbereitet werden. Roche verwendet hierzu winzige Perlen (Beads). An jedes Bead wird genau ein DNA-Fragment gebunden, das dann per PCR amplifiziert wird. Da man nur über die richtige Verdünnung sicherstellen kann, dass statistisch in den meisten Fällen genau ein DNA-Fragment an jedes Bead bindet, liegt auch hier eine Fehlerquelle. Denn während der Pyrosequenzierung liegt jedes Bead in einem winzigen Reaktionsgefäß. Nur wenn die daran befindlichen PCR-Produkte alle identisch sind, liefert die Sequenzierreaktion saubere Daten. Leselängen bis zu 1.000 bp sind laut Hersteller möglich, was mit der bewährten Sanger-Methode vergleichbar ist. Während bei Sanger aber maximal einige hundert DNA-Fragmente gleichzeitig von einer Multititerplatte sequenziert werden können, sind die Reaktionsvolumina der 454-Sequencer winzig und lassen sich entsprechend dicht zusammenpacken. Somit sind bis zu einer Millionen Reads pro Durchlauf möglich. Der 454-Methode sehr ähnlich ist das System von Ion Torrent. Hier wird jedoch kein Lichtsignal detektiert, sondern die Veränderung des pH-Werts beim Einbau der Basen gemessen.

Reversibler Kettenabbruch

Derzeit am häufigsten genutzt werden die Illumina-Sequencer, deren Funktionsprinzip der Sanger-Methode ähnelt. Amplifikation und Sequenzierung finden auf der Oberfläche der so genannten Flow Cell statt. Diese ist durchsättigt mit Primern, die fest auf der Oberfläche fixiert sind und nicht umherschwimmen können. Die zu sequenzierenden DNA-Fragmente hybridisieren mit den Primern, wobei die DNA-Enden zuvor mit speziellen Adaptern versehen wurden, die zu den Primerbasen komplementär sind. Beim Amplifizieren bildet die DNA brückenartige Strukturen, wenn sie mit den festsitzenden Forward- und Reverse-Primern hybridisiert – das Prinzip wird Bridge Amplification genannt. So werden die Primer in der unmittelbaren Nachbarschaft zu komplementären Strängen verlängert und bilden dann wiederum Brücken zu benachbarten Primern. Dadurch entsteht zu jedem Fragment in der Flusszelle ein eigenes, auf der Oberfläche fixiertes Cluster mit genügend Material, um in der nachfolgenden Sequenzierreaktion ein ausreichend starkes Signal zu generieren.

Sequenziert wird nach dem Prinzip des „reversiblen Kettenabbruchs“. Jede hinzugefügte Base erzeugt ein charakteristisches Fluoreszenzsignal und ist so modifiziert, dass die Kette nicht verlängert werden kann. Im nächsten Schritt wird der -Fluorophor entfernt und die terminierende Modifikation rückgängig gemacht, so dass erneut eine Base andocken kann. Auf der Reaktionsoberfläche finden mehrere hundert Millionen Cluster Platz. Die Leselängen sind derzeit zwar auf etwa 150 Basen pro Durchlauf beschränkt, lassen sich aber verdoppeln, indem man von beiden Seiten her sequenziert.

Die Illumina-Geräte sind auch Benes‘ Favoriten. „Es ist ein universell einsetzbares System“, so seine Meinung. Grenzen sieht er für Genomprojekte, bei denen keine Referenzsequenzen vorliegen. Denn hier lassen sich größere Regionen mit Repeats nur schwer zu einer vollständigen Sequenz assemblieren, wenn die Leselängen zu gering sind.

Ein Verfahren von Life Technologies, das unter dem Namen SOLiD vertrieben wird, unterscheidet sich von den anderen Sequenziermethoden dadurch, dass jeweils zwei komplementäre Basen hintereinander erkannt und über die Fluoreszenz erfasst werden. Da es 16 verschiedene Kombinationen aus zwei Basen gibt, aber nur vier Fluorophore verwendet werden, erhält man die exakte Basenfolge erst, nachdem diese Ligationen mehrmals hintereinander und gegeneinander versetzt durchgeführt wurden. Die Fehlerrate gilt als besonders gering, allerdings sind die Leselängen auf wenige Dutzend Basenpaare beschränkt.

Einzelzellanalyse noch zu ungenau

„Keines dieser Verfahren ist sensitiv genug, um einzelne DNA-Moleküle zu detektieren“, erklärt Benes. Und so erfordern all die oben genannten Techniken der sogenannten „zweiten Generation“, dass man zunächst eine Library erstellt, in der eine ausreichend große Anzahl jedes Fragments enthalten ist. Und dabei birgt eben jede PCR das Risiko falsch eingebauter Basen.

Ein System aber, das von Pacific Biosciences vertrieben wird, ist tatsächlich in der Lage, einzelne DNA-Moleküle zu erfassen. Es nennt sich Single Molecule Real Time Sequencing, kurz SMRT. In einem Reaktionsvolumen von 20 x 10-21 l ist ein Molekül DNA-Polymerase am Boden befestigt, über das der Template-Strang läuft. Mit jeder angefügten Base entsteht ein charakteristisches Fluoreszenzsignal. Bis zu 20.000 kb lange Moleküle sind damit sequenzierbar, wobei die durchschnittlichen Leselängen bei 3.000-5.000 bp liegen.

Für Genomanalysen sei dies ein unbezahlbarer Vorteil, schwärmt Benes. Eigentlich also die perfekte Anwendung, um einzelne Zellen zu untersuchen, ohne zuvor DNA amplifizieren zu müssen. „Ein Nachteil des Verfahrens ist, dass Sie eine relativ große Menge an Ausgangs-material einsetzen müssen, um das System zum Laufen zu bekommen“, schränkt Benes ein, denn die DNA müsse zuvor noch durch Zufügen bestimmter Adapter aufbereitet werden. Auch wenn im fertigen Ansatz schließlich einzelne Moleküle erkannt würden, bringe es den Forscher nicht weiter, wenn sein Material aus einer einzelnen Zelle statistisch nicht mehr oder nur noch in Spuren vorhanden sei, sobald die Sequenzierreaktion starte. Glaubt man den Rückmeldungen einiger Wissenschaftler zur SMRT-Methode, dann ist die Fehlerrate höher als auf der Firmenwebseite versprochen wird. Auch Benes teilt diese Skepsis. „Die Polymerase arbeitet anscheinend nicht so einheitlich, wie man angenommen hatte.“ Eine hohe Genauigkeit sei aber essentiell, wenn man in einzelnen Zellen Mutationen identifizieren wolle.

Revolutionäres versprechen Oxford Nanopore Technologies. Sie wollen ein kanalbildendes Protein in eine Membran einsetzen. Durch diese Nanopore wird ein DNA-Molekül geschleust und dabei der komplementäre Strang synthetisiert. Indem die Spannungsänderungen im Kanal registriert werden, wird die angehängte Base ermittelt. Auch mit diesem Verfahren ließen sich einzelne Moleküle erfassen. Sogar ein Sequencer im Taschenformat ist geplant, der sich direkt an den Computer anschließen lässt. Da die Nanopore-Technologie schon länger angekündigt, doch noch immer nicht auf dem Markt ist, klingt Benes derzeit wenig euphorisch bei seiner Einschätzung zu dieser Methode. „Wir wissen nicht viel darüber, und die Leute, die schon damit gearbeitet haben, dürfen nichts erzählen“.

Quasilineare Replikation

Bleibt die Frage, wie man denn nun sinnvoll mit einzelnen Zellen umgehen und eine PCR im klassischen Sinne vermeiden kann. Denn wurde ein Strang verdoppelt, so wird im nächsten Zyklus nicht nur der Originalstrang, sondern auch das neu synthetisierte Molekül repliziert. Die Anzahl der DNA-Moleküle wächst also exponentiell an. Kommt es in einem frühen Zyklus zu einem Fehler, so wächst dieser ebenfalls exponentiell mit. Ob man es bei einer Abweichung vom Referenzgenom nun mit einem PCR-Fehler oder einem seltenen Allel zu tun hat, lässt sich nicht beurteilen, wenn man bloß eine einzelne Zelle betrachtet. „Sie haben nur einen Versuch“, bringt es Benes auf den Punkt.

Ende letzten Jahres wurde ein Amplifikationsverfahren vorgestellt, das einerseits eine geringere Fehlerrate aufweist als die gewöhnliche PCR, mit dem sich andererseits aber dennoch DNA-Mengen synthetisieren lassen, die für eine Sequenzierreaktion ausreichend sind. Die Rede ist von Multiple Annealing and Looping-Based Amplification Cycles (MALBAC) (Science 2012, 338(6114):1622-6). Im ersten Schritt werden für eine Amplifikation Primer verwendet, von denen acht Positionen zufällig besetzt sind und die Bindung an das Template ermöglichen, während 27 Basen in allen Primern identisch bleiben. Die Primer binden nun an zufälligen Bereichen im Genom und werden von einer speziellen Polymerase namens phi29 durch komplementäre Nukleotide verlängert.

Im nächsten Schritt werden zwar auch die neu synthetisierten Stränge mitkopiert, doch da die ersten 27 Basen der Primer identisch sind, entstehen in der dritten Generation Produkte mit zwei genau komplementären Enden. Die DNA-Moleküle bilden eine Schleife – eben den namensgebenden Loop, da 3’- und 5’-Ende genau zueinander komplementär sind. Diese Loops können nun nicht weiter amplifiziert werden, so dass eine quasilineare Replikation des Materials erfolgt und sich Kopierfehler weniger stark auswirken als bei der klassischen PCR.

Bei phi29 handelt es sich um eine besonders effektive Polymerase. Trifft sie auf einen Bereich, in dem bereits andere Basen hybridisiert sind, werden diese einfach beiseite gedrängt. Dadurch entstehen Produkte, die bis zu 1,5 kb lang sind. Zwischen 85 und 93 Prozent des gesamten Genoms aus einer einzelnen Zelle sollen damit abgedeckt sein, so die Autoren des Papers. Das MALBAC-amplifizierte Material kann nun für eine Next Generation-Sequenzierung aufbereitet werden, wobei mögliche Fehler der folgenden PCR abgepuffert sind, da es zu jedem DNA-Abschnitt bereits mehrere linear amplifizierte Templates gibt.

Zellpopulationen als Kompromiss

Ebenfalls am EMBL leitet Wolfgang Huber eine Gruppe in der Abteilung für Genombiologie. Ursprünglich theoretischer Physiker, ist er jetzt in Heidelberg als Statistiker tätig und bezeichnet sein Arbeitsfeld als „Computational Biology“. Er wertet Sequenzdaten aus und arbeitet dabei auch mit Benes und der Genomics Core Facility zusammen. Eine Sequenzierung des ganzen Genoms einer einzelnen Zelle für die praktische Anwendung sieht er als schwierig an. „Die Daten, die ich bisher gesehen habe, weisen darauf hin, dass nur etwa ein bis fünf Prozent der DNA überhaupt amplifiziert wird; der Rest geht vorher bereits verloren“, so seine Erfahrung.

Optimistischer ist er, wenn man sich die mRNA anschauen möchte, sofern diese in ausreichender Kopienzahl vorhanden ist. Für genomische DNA sei es sinnvoll, sich Gruppen von Zellen anzuschauen, wenn diese einen gemeinsamen Ursprung haben. Auch innerhalb eines Tumors gebe es solche klonale Cluster. „Wir bekommen sicherlich kein perfektes Abbild einer einzelnen, isolierten Zelle. Aber Zellen kommen ja in Populationen, stammen voneinander ab, und daher kann man die Einzelgenome aus der Überlagerung von solchen bruchstückhaften und fehlerhaften Daten pro Zelle doch wieder rekonstruieren“, begründet er. Schwieriger sei das, wenn tatsächlich nur wenige Zellen im Ausgangsmaterial vorhanden sind, auf die man zurückgreifen kann. Als Beispiel nennt er Embryonen in frühen Stadien. So hatte er selbst kürzlich ein Projekt, für das Einzelzell-Transkriptome aus Mausembryonen untersucht wurden. „ In der Entwicklungsbiologie wird das sicherlich noch zunehmen“, vermutet Huber.

Eine einfache Methode, einzelne Zellen zuverlässig zu sequenzieren, hat sich derzeit also noch nicht durchgesetzt. Benes verweist hier noch auf ein anderes Problem: „Wir können RNA nicht direkt auslesen, sondern müssen sie erst in cDNA umschreiben“. Falls man also nicht nur am Genom interessiert ist, sondern auch schauen will, welche Gene zum Beispiel in der einen Tumorzelle exprimiert sind, muss man sich für eines von beiden entscheiden – entweder DNA oder RNA. Zur RNA-Sequenzierung muss nämlich die genomische DNA entfernt werden, da diese sonst nicht mehr zuverlässig von der cDNA zu unterscheiden wäre und zu einer Art Hintergrundrauschen im Datensatz führt. Vielleicht bewährt sich MALBAC in künftigen Forschungsprojekten, wenn es darum geht, genomische DNA einzelner Zellen für die Sequenzierung aufzubereiten.

Darüber hinaus schauen sowohl Huber als auch Benes gespannt den Entwicklungen von Technologien wie SMRT oder Oxford Nanopore entgegen, die auch als Sequenziermethoden der dritten Generation bezeichnet werden. Gemeint sind Verfahren, mit deren Hilfe sich einzelne DNA-Moleküle sequenzieren lassen, ohne dass eine vorherige Amplifikation des Materials erforderlich ist. Abzuwarten bleibt, wie viele Generationen man noch auf die Maschine warten muss, in die man eine einzelne Zelle hineinwirft, um wenig später ein gesamtes Genom und am besten noch Transkriptom als ordentlich formatierten Datensatz ausgespuckt zu bekommen. Bis dahin werden Informatiker wie Huber noch viel zu tun haben.

Mario Rembold

(Der Artikel erschien gedruckt in der aktuellen Laborjournal-Ausgabe 6/2013 auf den Seiten 38-42; Foto: Fotolia/runzelkorn+by-studio)



Letzte Änderungen: 02.10.2013