Editorial

Bits und Bytes aus DNA - Neue DNA-Synthesemethoden und -Datenspeicher

Mihaela Bukova


(13.06.2022) Noch wird DNA zumeist mit der althergebrachten Phosphoramidit-Synthese auf chemischem Weg hergestellt. Neuentwickelte enzymatische Verfahren sind umweltfreundlicher und ein Hoffnungsträger für die Datenspeicherung mit DNA. Dafür muss der Preis pro synthetisierter Base aber noch erheblich sinken.

Wir leben in einer von Daten gesteuerten Welt: Täglich produzieren wir 2,5 Trillionen Bytes an Daten. Bei gleichbleibender Wachstumsrate sind das 175 Zettabytes im Jahr 2025. Der Präfix Zetta leitet sich vom italienischen Wort für die Zahl sieben ab und steht für eine unermesslich große Zahl mit 21 Nullen. Würde man diese Datenmenge auf DVDs speichern und diese dann übereinanderstapeln, könnte man die Strecke zwischen Mond und Erde ganze 23-mal zurücklegen.

Der stetig wachsende Datenfluss droht die technischen Speicherkapazitäten zu sprengen, denn die Informationsdichte magnetischer Bänder, die aktuell für die langfristige Speicherung großer Datenmengen verwendet werden, nähert sich bald der theoretischen Grenze. Zudem müssen die Daten nach einigen Jahrzehnten auf neue Bänder kopiert werden.

Um mit dem enormen Datenfluss Schritt zu halten, sind neuartige Datenspeicher nötig, die die Zettabytes auf kleinstem Raum unterbringen können. Neben einer hohen Informationsdichte sind auch eine lange Lebensdauer und niedrige Energiekosten bei der Lagerung wichtige Faktoren. Der vielversprechendste Kandidat ist deshalb DNA. Bei einer maximalen Informationsdichte von zwei Bits pro Basenpaar könnte man theoretisch 455 Trillionen Bytes in nur einem Gramm DNA speichern (Science 337(6102): 1628). Das ist ein Vielfaches der Infomationsdichte konventioneller Datenspeicher. Außerdem kann DNA bei entsprechender Lagerung Jahrhunderte, wenn nicht sogar Jahrtausende überdauern, wie die erfolgreiche Extraktion intakter DNA aus uralten Fossilien belegt (Proc. Biol. Sci. 279(1748): 4724-33). Die Aufbewahrung von DNA erfordert zudem bis zu achtmal weniger Energie als die traditioneller Speichermedien (Nature Commun. 13: 352). DNA ist nicht nur langlebig. Im Gegensatz zu längst überholten Datenspeichern wie zum Beispiel Disketten ist sie auch zukunftsfähig. Schließlich nutzen lebende Organismen DNA seit Jahrtausenden zur Speicherung ihrer genetischen Baupläne.

269a
Illustration: Wyss Institute

Doch wie speichert man Daten mithilfe von DNA? Zunächst übersetzen Computeralgorithmen die digitalen Informationen in DNA-Sequenzen, die dann synthetisiert und gespeichert werden. Zum Abruf der Daten wird die DNA-Bibliothek sequenziert und die Information wieder in digitale Daten übersetzt.

Die DNA-Datenspeicherung profitiert hierbei von neuen Techniken bei der Synthese (Schreiben) und dem Sequenzieren (Lesen) von DNA. Die meisten bisherigen DNA-Datenspeicher nutzen für das Schreiben der Informationen die Phosphoramidit-Synthese – eine klassische chemische Methode zur Oligonukleotid-Synthese, die in den 1980er-Jahren etabliert wurde. Bei dieser Technik wird der DNA-Strang Nukleotid für Nukleotid synthetisiert. Hierfür werden modifizierte Nukleotide verwendet, die mit Schutzgruppen versehen sind, um die Bildung unerwünschter Homopolymere zu verhindern. Nachdem ein Nukleotid an den wachsenden DNA-Strang angefügt wurde, wird die Schutzgruppe mithilfe einer Säure entfernt und ein weiteres Nukleotid kann in einem neuen Zyklus hinzugefügt werden. Die Synthese erfolgt meist in 3’-5’-Richtung, also entgegen der biologischen Syntheserichtung.

Automatisierte Array-Verfahren

Seit ihrer Einführung wurde die Methode technologisch verfeinert. Die Synthese auf einem festen Träger in Form einer Säule oder eines Arrays ermöglichte zum Beispiel die Automatisierung und Skalierung der Oligonukleotid-Synthese auf größere Maßstäbe. Bei der Array-basierten Synthese wird die DNA auf dem Array fixiert, die Oberfläche danach zyklisch mit den entsprechenden Reagenzien geflutet. So können parallel hunderte von DNA-Strängen gleichzeitig synthetisiert werden. Mit verschiedenen Techniken steuern Forscher präzise, welche Basen zu welchen Strängen hinzugefügt werden. Bei der elektrochemischen Phosphoramidit-Synthese enthält jeder Spot auf dem Array eine Elektrode. Legt man eine Spannung an, entsteht an der Anode eine Säure, die die Nukleotid-Schutzgruppe enfernt. Um die Säurebildung lokal zu begrenzen, ist die Anode von vier Kathoden umgeben, die zur Neutralisation eine Base generieren. Der elektrochemische Prozess setzt punktgenau ein Nukleotid für den nächsten Syntheseschritt frei. Dieses im vergangenen Jahr von einem Team der University of Washington zusammen mit Microsoft entwickelte Verfahren ermöglicht die gleichzeitige DNA-Synthese an unterschiedlichen Stellen des Arrays für die Datenspeicherung (Sci. Adv. 7: eabi6714).

Um einen höheren Durchsatz bei der DNA-Synthese zu erzielen, kann einerseits die Fläche des Arrays und somit die Anzahl der Spots vergrößert oder die Größe der Spots verkleinert werden. Um kleinere Spots weiterhin präzise ansteuern zu können, müssen die technischen Systeme, die die Reaktionen automatisieren, ebenfalls verfeinert werden. „Dazu waren nicht mehr chemische, sondern eher chemisch-technische Innovationen nötig”, erklärt der Chemiker Richie Kohman, der zusammen mit George Church in Harvard an Methoden zur DNA-Datenspeicherung arbeitete. „Es ist wirklich bemerkenswert, dass sich auf der Grundlage einer so alten Chemie bei der DNA-Synthese so viel getan hat,” schwärmt Kohman, der seit 2021 Chief Scientific Officer am Wyss Center in Genf ist. Denn während die chemischen Aspekte der Methode seit Jahrzehnten etabliert sind, sei inzwischen ein technologisches Wettrüsten im Gange, bei dem es um die kleinste Spot-Größe und die größte Spot-Dichte gehe.

Die chemische DNA-Synthese hat allerdings auch Nachteile, etwa toxische und umweltschädliche Abfallprodukte – „es ist keine besonders grüne Chemie“, konstatiert Kohman. Eine weitere Einschränkung ist die Länge der synthetisierten DNA. Bei der Entfernung der Schutzgruppen mithilfe von Säure kann es zur spontanen Depurinierung der DNA kommen. „Die kleinen Fehler summieren sich, bis ein Punkt erreicht ist, an dem man keine reine DNA mehr herstellen kann. Die Chemie stößt an ihre Grenzen“, stellt Kohman achselzuckend fest. Derzeit liegt diese bei einer Länge von 200 bis 300 Nukleotiden.

Könnte die Biologie Abhilfe schaffen? Schließlich haben DNA-synthetisierende Enzyme schon Jahrtausende der Evolution hinter sich: „Sie sind wie Nanomaschinen, die für die Reaktion optimiert wurden,“ erklärt Thomas Ybert, Gründer und CEO der französischen Firma DNA Script. Das 2014 im Süden von Paris gegründete Start-up hat sich zum Ziel gesetzt, die DNA-Synthese mithilfe von Enzymen zu revolutionieren.

Bei der enzymatischen DNA-Synthese nutzen Forscher die Terminale Desoxyribonukleotidyl-Transferase (TdT), die DNA ohne Vorlage synthetisiert. Welche Base sie zum wachsenden DNA-Strang addiert, kann man ganz einfach durch schrittweise Zugabe der entsprechenden Nukleotide steuern: „Will man ein Adenin (A) anfügen, gibt man dem Enzym nur As. Will man ein Thymin (T) anhängen, stellt man nur Ts zur Verfügung“, erklärt Kohman. Nach jedem Schritt werden nicht eingebaute Nukleotide entfernt, bevor der Zyklus von vorne beginnt.

Doch wie verhindert man, dass das Enzym das gleiche Nukleotid mehrfach einfügt? Die Strategie, die DNA Script hierzu verfolgt, erinnert an die chemische Synthese. Die einzubauenden Nukleotide sind reversibel mit kleinen chemischen Gruppen modifiziert, die ein weiteres Wachstum des DNA-Stranges verhindern. Erst nachdem die reversiblen Modifikationen entfernt sind, kann die TdT-Polymerase das nächste Nukleotid anfügen und der Zyklus beginnt von vorn. „Da die schützenden reversiblen Terminator-Nukleotide keine natürlichen Substrate für die Polymerase sind, mussten wir die Polymerase stark verändern“, offenbart Ybert.

Das kalifornische Start-up Ansa Biotechnologies, das Sebastian Palluk nach seiner Doktorarbeit an der TU Darmstadt mitgründete, verzichtet hingegen auf das Enzym-Engineering (siehe hierzu auch Laborjournal 9-2018, Seite 68, Link) . Stattdessen nutzen die Forscher eine bereits an das Nukleotid gekoppelte TdT-Polymerase für die Synthese. Die Polymerase hängt das Nukleotid an das 3’-Ende des naszierenden DNA-Strangs an und verbleibt dort, wodurch sie das Hinzufügen weiterer Nukleotide verhindert. Die TdT erfüllt eine doppelte Funktion – sie ist sowohl Polymerase als auch Schutzgruppe. „Aus theoretischer und intellektueller Sicht ist das eine sehr spannende Herangehensweise“, lobt Ybert die Konkurrenz. „Aber vom praktischen Standpunkt aus gesehen, bietet es einen Freiheitsgrad weniger, um das System zu steuern.“ Denn die Kopplung von Nukleotid und Polymerase legt das stöchiometrische Verhältnis der Reaktion fest und blockiert eine Stellschraube, die man bei der Optimierung der Reaktion verändern könnte. Ybert ist skeptisch: „Man wird die Polymerase verändern müssen. Ich glaube nicht, dass ein Ansatz, bei dem man die Polymerase zu keinem Zeitpunkt anfassen will, erfolgreich sein wird.“ Laut Ybert müsse man die Polymerase vielleicht nicht notwendigerweise zum Einbau der Nukleotide modifizieren, aber zum Beispiel, um ihre Stabilität zu verbessern oder für die Durchführung der Reaktion unter bestimmten physikalischen Bedingungen. Welches Verfahren sich letzten Endes durchsetzen wird, bleibt noch abzuwarten. „Der Gewinner wird derjenige sein, der ein kommerzielles Produkt mit höherem Reinheitsgrad für weniger Geld verkauft“, prognostiziert Kohman.

269b
Richie Kohman vom Wyss Center in Genf geht davon aus, dass die großen DNA-Synthese-Firmen die Entwicklungen bei der enzymatischen DNA-Synthese sehr genau verfolgen. Foto: Wyss Center

Die enzymatische DNA-Synthese steckt noch in den Kinderschuhen, doch sie schlägt bereits hohe Wellen. Anfang des Jahres verkündete Twist Bioscience, ein wichtiger Akteur der chemischen DNA-Synthese, in die enzymatische DNA-Synthese einsteigen zu wollen. Sehr zur Freude von Ybert, denn die Nachricht sei eine Bestätigung dafür, auf das richtige Pferd, beziehungsweise Enzym, gesetzt zu haben. „Es bedeutet, dass wir eindeutig etwas in der Hand haben“, freut er sich. Auch Kohman beobachtet gespannt die „auf der Lauer liegenden“ Technologie-Riesen Twist Bioscience und IDT: „Ich glaube, sie warten nur darauf, ob die Technologie mit der chemischen Methode konkurrieren oder sie übertreffen kann, und werden dann wahrscheinlich das beste Unternehmen aufkaufen.“

Während es in den Biowissenschaften bei der DNA-Synthese sowohl um Effizienz als auch um Genauigkeit geht, ist dies bei der Datenspeicherung nicht so entscheidend. Es spielt keine Rolle, ob ein, zwei oder mehrere gleiche Nukleotide an den wachsenden DNA-Strang angefügt werden. Die Teams von Richie Kohman und George Church entwickelten eine Methode, bei der die Daten nicht direkt in der DNA-Sequenz, sondern in den Übergängen zwischen den einzelnen Nukleotiden gespeichert werden (Nature Commun. 11: 5246). Wichtig ist also lediglich die Reihenfolge der verschiedenen Nukleotide – wie viele gleiche Nukleotide direkt hintereinander auftauchen, ist unerheblich. So encodiert die Sequenz AACCTTGG zum Beispiel die selbe Information wie die kürzere Sequenz ACTG. Der Vorteil dieser sogenannten Block-Transition-Methode ist, dass man für die Synthese direkt den TdT-Wildtyp verwenden kann und sich hierdurch das Enzym-Engineering spart.

Mithilfe von Cobalt-Ionen, die als Cofaktoren für die TdT-Polymerase essenziell sind, parallelisierte die Gruppe den Prozess. Sie schloss die Cobalt-Ionen dazu in lichtempfindliche molekulare Käfige ein. Durch gezieltes Beleuchten brachen die Forscher die Käfige auf, die freigesetzten Ionen aktivierten daraufhin das Enzym an dem angestrahlten Punkt auf der verwendeten Flow Cell. Die Nukleotide werden hierdurch an den anvisierten Stellen auf der Flow Cell eingefügt. Da die Länge des Lichtblitzes die Dauer der enzymatischen Aktivität bestimmt, muss man die richtige Balance finden. Dauert die Bestrahlung zu lange, fügt das Enzym viele gleiche Nukleotide an den wachsenden DNA-Strang an, wodurch sich die Informationsdichte der gespeicherten DNA verringert. Ein zu kurzer Lichtblitz birgt hingegen das Risiko, dass gar kein Nukleotid hinzugefügt wird. Die Folge kann ein falscher Nukleotid-Übergang und damit ein Fehler beim Encoding der Daten sein. „Man muss das optimale Zeitfenster finden“, fasst Kohman den Knackpunkt der Methode zusammen.

Wie viele Daten sich mit der Block-Transition-Technik speichern lassen, ist laut Kohman noch unklar. In der Proof-of-Concept-Studie sei es zunächst darum gegangen, ihre prinzipielle Eignung für die Datenspeicherung zu zeigen. Im Gegensatz zur DNA-Datenspeicherung mittels Nukleotidsequenz ist die Informationsdichte beim Block-Transition-Verfahren geringer. „Die Dichte ist weniger optimal, aber die Synthese ist einfacher“, so Kohman. Denn man nutzt die Vorteile der enzymatischen Synthese aus, ohne das Enzym in einem aufwendigen Prozess verändern zu müssen. Die Anwendung im industriellen Maßstab stehe zwar noch aus. „Die Automatisierung sollte aber“, so Kohmann, „aus industrieller Sicht ziemlich einfach sein. Es geht nur um die Steuerung der Fluidik und des Lichts.“

Gezielter Zugriff auf DNA-Speicher

Die DNA-Daten zu speichern, ist aber nur eine Seite der Medaille, die Daten müssen auch lesbar sein. Um nicht bei jedem Zugriff alle gespeicherten Daten lesen zu müssen, ist eine Random-Access-Methode nötig, die beliebige Elemente in einer Datensammlung aufruft. Schließlich will man auch kein gesamtes Wörterbuch durchackern, wenn man nur ein Wort nachschlagen möchte.

Eine Gruppe der University of Washington entwickelte zusammen mit Microsoft Research eine PCR-basierte Technik für den Random Access. Beim Schreiben der DNA-Daten werden an die Nukleotidsequenz, die die Nutzdaten enthält, beidseitig Index-Sequenzen angefügt. Diese Indices können mittels PCR für den gezielten Abruf der Daten verwendet werden (Nature Biotechnol. 36: 242-8).

Die größte Herausforderung beim PCR-gesteuerten Random Access sind die Primer, die nur an die gewünschte Sequenz binden dürfen. Bei kleinen Datenmengen ist das unproblematisch, bei großen, etwa für die Datenspeicherung, sieht es anders aus: „Die Schlüssel-Schloss-Analogie für die PCR funktioniert nicht mehr so gut, sobald eine große DNA-Menge vorliegt“, erklärt James Banal, Gründer der Firma Cache DNA, die sich der DNA-Datenspeicherung verschrieben hat. Außerdem zerstört die PCR-Methode nichtamplifizierte Daten, denn diese gehen dem DNA-Datenpool verloren. Um dies zu vermeiden, entwickelte Banal während seiner Zeit als Postdoc in Mark Bathes Gruppe am Massachusetts Institute of Technology (MIT) eine alternative Random-Access-Methode für DNA-Daten (Nature Materials 20: 1272-80). „Wir haben die Hauptdatei physisch von den Metadaten getrennt. Man operiert nur auf der Ebene der Metadaten-Barcodes“, erklärt Banal. Jede DNA-„Datei“ ist in eine kugelförmige Glaskapsel eingeschlossen, deren Oberfläche mit einzelsträngigen DNA-Barcodes versehen ist. Die Barcodes geben Aufschluss über den Inhalt der Kapsel – ähnlich wie die Ordner auf einem Computer. Um eine DNA-Datei gezielt herauszufischen, werden mit Fluorophoren markierte Primer verwendet, die an den entsprechenden Barcode binden. Alle anderen Dateien bleiben unberührt im DNA-Datenpool zurück.

In den DNA-Dateien speicherte die Gruppe die Informationen von Bildern. Für die Barcodes verwendete sie eine Bibliothek aus 240.000 bereits getesteter Sequenzen. Mit vier Barcodes pro DNA-Datei könnte man 1020 Dateien ein-eindeutig kennzeichnen und die riesige Datenmenge von einem Exabyte (1018 Bytes) speichern, selbst wenn man nur einen Byte pro Kapsel speichern würde. Banals Random-Access-Methode ist sogar für Boolesche Logik geeignet: Für den Zugriff auf eine DNA-Datei, die das Bild eines Tigers encodiert, würde man zum Beispiel Primer verwenden, die mit Barcodes für „Katze“ und „wild“ hybridisieren; wohingegen das Bild einer Hauskatze über die DNA-Barcodes „Katze“ und „zahm“ abgerufen werden könnte.

Die PCR beim Datenzugriff zu umgehen, biete vor allem im Hinblick auf die Skalierung der Technik Vorteile, so Banal: „Im Labor ist es einfach, Temperaturzyklen durchzuführen. Im großen Maßstab ist es eine technische Herausforderung. Denn man muss sehr schnell auf 95 Grad Celsius aufheizen und wieder abkühlen. Mit einer kleinen Flüssigkeitsmenge ist das sehr einfach – mit mehreren Litern Flüssigkeit aber nicht.“

269c
Jedes einzelne Glaskügelchen enthält eine DNA-Sequenz, die ein Bild encodiert. Der Zugriff auf die Bilder erfolgt über einen DNA-Barcode auf der Hülle der Kügelchen. Foto: Gruppe Bathe

Basierend auf seinen Arbeiten am MIT gründete Banal Ende 2021 das Start-up Cache DNA. Aktuell suche das Team nach alternativen Strategien für die Kügelchen, die die DNA-Dateien umgeben. Das Verhältnis von Siliciumdioxid zu DNA sei noch zu hoch. Ein weiteres Ziel sei die Beschleunigung des Prozesses: „Die Herstellung der Glaskügelchen dauert etwa vier Tage. Es gibt viele Möglichkeiten, den Prozess zu beschleunigen, etwa durch andere Chemikalien für die Verkapselung“, erklärt Banal.

Hat man die gewünschte DNA-Datei aus dem Datenpool herausgefischt, ist der letzte Schritt das Lesen beziehungsweise Sequenzieren der DNA. Dafür setzen Forscher neben der Illumina-Sequenzierung zunehmend auch die Nanoporen-Sequenzierung ein. Bei Letzterer wird die DNA durch eine Nanopore geschleust, wodurch es zu Spannungsänderungen an der Pore kommt, die spezifisch für jede der vier Nukleobasen sind. Die aktuellen Fehlerraten der Nanoporen-Technologie sind zwar noch relativ hoch. Sie ist aber für die DNA-Datenspeicherung interessant, weil die Daten in Echtzeit ausgelesen werden. Die sequenzierte Nukleotid-Abfolge wird anschließend mithilfe von Computeralgorithmen in die Nullen und Einsen der digitalen Welt zurückübersetzt.

Welche Daten eignen sich für die DNA-Datenspeicherung? „Man wird seinen Computer oder sein Handy nicht auf DNA-Hardware laufen lassen“, erklärt Kohman. Auch Banal meint, dass DNA traditionelle Medien wie Festplatten nicht vollständig ersetzen wird. Die Forschungsbemühungen richten sich vielmehr auf DNA als Speichermedium für wertvolle Daten, auf die nicht häufig zugegriffen werden muss. Banal nennt Rechenzentren als Beispiel: „Die erstellen Back-ups. Von zehn Back-ups könnte vielleicht eines für die Notfallwiederherstellung aus DNA bestehen und die anderen aus Silicium.“ Auch Daten, die aus rechtlichen Gründen über lange Zeiträume hinweg gespeichert werden müssen, sind gute Kandidaten.

Noch zu teuer und zu langsam

Um DNA als Datenmedium praktikabel zu machen, muss aber noch einiges geschehen. Das größte Nadelöhr ist die DNA-Synthese.Derzeit koste es laut Banal eine Billion US-Dollar, um ein Petabyte (eine Million Gigabyte) DNA-Daten zu synthetisieren – viel zu teuer, um den gängigen Speichermedien Konkurrenz zu machen. „Hätte ich einen Zauberstab, würde ich die Kosten der DNA-Synthese mindestens um fünf bis sechs Größenordnungen reduzieren“, träumt Banal und erwartet, dass dies in den nächsten zehn bis zwanzig Jahren passieren werde.

Die Kosten müssen runter und die Geschwindigkeit muss sich um ein Vielfaches erhöhen. Schätzungen zufolge liegt der Durchsatz beim Schreiben von DNA gegenwärtig in der Größenordnung von Kilobytes pro Sekunde (Nature Rev. Genetics 20: 456-66 ). Um mit gängigen Cloud-Speichersystemen mithalten zu können, müsste er auf Gigabytes pro Sekunde ansteigen. Auch das Sequenzieren, laut Kohman „das ultimative Aushängeschild für technologischen Fortschritt“, muss schneller werden – mindestens um zwei bis drei Größenordnungen.

Die DNA-Datenspeicherung ist noch sehr jung, betont Banal: „Ich sage den Leuten immer, dass wir uns noch in einem sehr frühen Stadium befinden. Man kann nicht erwarten, dass wir alle Lösungen schon parat haben. Es ist noch eine Menge zu tun.“ Doch das enorme Potenzial von DNA als Speichermedium ist offensichtlich: „Als ich zum ersten Mal von DNA-Datenspeicherung hörte, war ich erstaunt“, erinnert sich Kohman. „Die Menschen sprachen von der chemischen Einfachheit der DNA. Aus Sicht eines Synthetischen Chemikers musste ich dem widersprechen. Strukturell gesehen ist es ein komplexes Molekül.“

Die DNA-Datenspeicherung profitiert aber von den enormen Fortschritten bei der Synthese sowie der Sequenzierung von DNA in den vergangenen Jahrzehnten und hat zudem einen beinahe unschlagbaren Vorteil. Kohman veranschaulicht das mit einem alternativen Speichermedium: „Man könnte zum Beispiel Daten in Form von synthetischen Polymeren speichern. Wir haben Plastik in den Ozeanen, das wir nicht mehr loswerden. Was spricht also dagegen, Daten in Plastik zu speichern? – Dass man sie nicht so einfach lesen kann und können wird wie DNA-Daten.“

Die in DNA-Datenspeichern enthaltene Information lässt sich im Gegensatz zu anderen Speichermedien auch in ferner Zukunft noch auswerten, darin sind sich Kohman und Banal einig.