Editorial

Herkunftsnachweis für
Chloroplasten-DNA

(07.02.2024) Die Assemblierung von Plastiden-Genomen mit Short-Reads war bisher ziemlich hoffnungslos. Mit langen Reads und einem neuen Tool ist es kein Hexenwerk mehr.
editorial_bild

Chloroplasten im Haarblättrigen Birnmoos (Bryum capillare)

Kurz und präzise oder lang und nicht ganz so genau? Die Wahl des Sequenzier-Verfahrens ist eine Frage, die von Kosten- und Zeitfaktoren abgesehen, vor allem davon abhängt, was mit den Sequenzdaten passieren soll. Die (beinahe) optimale Konstellation mit langen und zugleich präzisen Reads erreicht man mit der HiFi-Sequenzier­methode von PacBio (siehe dazu auch „Sequenz-Konfetti oder Lese-Marathon“ und „Mit vereinten Kräften zur Sequenz“ auf Laborjournal).

Die PacBio-Technik beruht darauf, lange Sequenzen zu zirkularisieren und die entstehenden Konstrukte immer wieder rundherum zu sequenzieren. Die Konsensussequenz mehrerer Reads desselben Moleküls bügelt einzelne Sequenzierfehler aus und liefert bis zu 25 Kilobasen lange High-Fidelity- oder kurz HiFi-Reads. Mit diesen lassen sich auch sehr ambitionierte Vorhaben realisieren.

Editorial

Überall verstreut

Für Wenfei Xian und seinen Chef Detlef Weigel vom Max-Planck-Institut für Biologie in Tübingen stand schnell fest, was sie mit den HiFi-Reads tun wollten: Plastiden-Genome verlässlich zusammenbauen. Für die De-novo-Assemblierung von Plastid-Genomen mit den HiFi-Reads mussten sie aber noch ein kleines Tool entwickeln, das sie TIPP_plastid nannten (Link zum bioRxiv-Manuskript unten).

Dass traditionelle Short-Reads für die Assemblierung von Plastid-Genomen nicht genügen, wird schnell klar, wenn man sich die Verteilung von DNA in Pflanzen anschaut. Die Chloroplasten-DNA kommt nicht nur im Genom der Chloroplasten vor, sondern ist mehr oder weniger über das nukleäre Genom verstreut und findet sich bruchstückhaft auch im mitochondrialen Genom. Ob eine vermeintliche Chloroplasten-Sequenz also tatsächlich vom Chloroplasten-Genom stammt, ließ sich bislang nicht eindeutig sagen. Chloroplasten-Genome, die auf dem Assembly kurzer Reads beruhen, sind daher mit einer gewissen Vorsicht zu genießen.

Noch mehr Verwirrung

Was die Sache noch etwas verzwickter macht, ist das Phänomen der Heteroplasmie. Oft enthalten Pflanzen nicht einfach nur ein Chloroplasten-Genom, sondern gleich zwei oder mehrere, die nicht identisch sind. Das stiftet bei der Assemblierung zusätzliche Verwirrung. Als „Inversion Hotspots“ fehlinterpretierte Regionen, die eigentlich von verschiedenen Chloroplasten-Genomen stammen, werden hierdurch einem einzigen Genom zugeordnet, das falsch zusammengesetzt und zu lang ist.

Um Chloroplasten-Genome sauber rekonstruieren zu können, haben die Tübinger Forscher zunächst reichlich Sequenzdaten zusammengeklaubt. Diese stammten von chloroplastidärer DNA aus rund 4.500 Genera und mitochondrialer DNA aus 485 Genera. Als Input dienten außerdem PacBio-HiFi-Daten von 45 Spezies quer durch die Botanik, von Rotalge bis Tomate.

Je nachdem, zu welcher der beiden Quellen eine HiFi-Sequenz jeweils am besten passte, fiel sie zunächst in eine der Schubladen Mitochondrial, Chloroplastidär oder Nukleär. Die hierdurch um Sequenzen von Mitochondrien bereinigten Reads durchliefen danach eine statistische Analyse, basierend auf der k-mer-Read-Zählung. Hintergedanke ist, dass die Sequenziertiefe chloroplastidärer Sequenzen größer ist, da in einer Zelle immer nur ein Kern, aber dutzende, mitunter sogar hunderte, Chloroplasten vorkommen. Identische k-mere sind somit viel häufiger und wahrscheinlicher, wenn die Sequenz tatsächlich vom Chloroplasten- und nicht von einem chloroplastidären Abschnitt des Kerngenoms stammt.

Gigantische Genome rekonstruiert

Xian und Weigels Tool „readskmercount“ bildet die Verteilung der Counts jedes einzelnen k-mers in jedem Read ab. Unter dem Medianwert liegende Reads stammen vom Zellkern und werden nicht berücksichtigt. Aus den verbliebenen HiFi-Reads wählte das Duo 2.000 Sequenzen mit einer durchschnittlichen Länge von 15 Kilobasen aus und assemblierte diese mit dem Tool „Flye“ zu Chloroplasten-Genomen mit durchschnittlich 150 Kilobasen.

Treten in den digitalen Konstrukten invertierte Repeats auf, ist dies ein Hinweis auf Heteroplasmie. In diesem Fall wird die Sequenz noch einmal auseinandergenommen, um mit ihr zwei getrennte Chloroplasten-Genome zu assemblieren. Für Spezies mit besonders großen Chloroplasten-Genomen genügen 2.000 HiFi-Reads für die Assemblierung nicht. Mit 6.000 Reads gelingt jedoch auch die Rekonstruktion von gigantischen Chloroplasten-Genomen, etwa des 1,42 Megabasen langen Chloroplasten-Genoms der Mikroalge Haematococcus lacustris.

Andrea Pitzschke

Xian W. & Weigel D. (2024): TIPP_plastid: A user-friendly tool for de novo assembly of plastid genomes. BioRxiv, DOI: 10.1101/2024.01.29.577798.

Bild: Wikimedia Commons/Des_Callaghan (CC-BY-SA-4.0)




Letzte Änderungen: 07.02.2024