Editorial

Abgrenzung und Funktion Langer nicht-codierender RNA - Schwer einzuordnen und voller Rätsel

Mario Rembold, Laborjournal 11/2023


(10.11.2023) Früher hielt man lange nicht-codierende RNAs für transkriptionelles Hintergrundrauschen. Inzwischen weiß man, dass sie nicht nur für die Dosiskompensation auf den Geschlechtschromosomen oder die Interferon-Antwort unentbehrlich sind. Aber welche nicht-codierenden RNAs passen überhaupt in die Schublade „lang“?

Zum Kosmos der nicht-codierenden oder non-coding RNAs (ncRNAs) gehört mittlerweile ein ganzer Zoo von Transkripten. Forschende versuchen, diese in ein passendes System einzuordnen und kennzeichnen jedes „Schubladenfach“ durch ein Präfix vor dem Kürzel „RNA“. Die kleinsten ncRNAs sind miRNAs (microRNAs) und siRNAs (small interfering RNAs) mit 20 bis 25 Nukleotiden, gefolgt von den bis zu gut 30 Basen langen piRNAs (piwi-interacting RNAs). Small nuclear RNAs (snRNAs) bestehen aus 100 bis 300 Nukleotiden.

Deutlich länger sind mitunter die für Ribosomen benötigten Transkripte sowie zirkuläre RNAs, die aber bereits als rRNAs und circRNAs ihre eigenen Label tragen.

Übrig bleibt ein ziemlich heterogener Pool langer nicht-codierender RNAs, die man auch unter „Sonstiges“ einsortieren könnte. Etabliert hat sich aber die Bezeichnung „lange nicht-codierende RNA“ oder lncRNA für Transkripte, die länger sind als 200 Basen und sich keinen der anderen Kategorien zuordnen lassen. „Unglücklicherweise sind lncRNAs nach dem benannt, was sie nicht sind“, stellen die Autoren eines unlängst in Nature Reviews Molecular Cell Biology veröffentlichten Übersichtsartikels fest (Nat. Rev. Mol. Cell Biol. 24(6): 430-47). John Mattick et al. fassen in diesem „Consensus Statement“ Definitionen und Erkenntnisse zu lncRNAs zusammen und geben Empfehlungen zu ihrer Nomenklatur.

Symbolbold Kissing ncRNA
Illustr.: Tobias Wüstenfeld

Noch zu Beginn der Nullerjahre diskutierte man lncRNAs als eine Art „transkriptionales Rauschen“. Tatsächlich sprechen viele Indizien auf den ersten Blick gegen eine biologische Relevanz. lncRNAs sind hinsichtlich ihrer Sequenz kaum konserviert – in der klassischen Genetik gilt jedoch die Prämisse, dass die Basenfolge die Funktion definiert. Variationen in der Basenfolge proteincodierender Abschnitte sind selten, wenn auf der Funktion des Genprodukts ein hoher Selektionsdruck lastet. Die Autoren des Reviews weisen zudem darauf hin, dass lncRNA-Gene kaum in genetischen Screens aufgefallen sind und man häufig keine klaren Assoziationen zu einem Phänotyp findet. Die damalige Skepsis, die auch andere nicht-codierende RNAs einschloss, ist also nachvollziehbar.

Im Laufe der Zeit tauchten jedoch immer mehr lncRNAs auf, denen man eine Funktion zuordnen konnte. Mattick und Co. schreiben, dass sich die räumliche Struktur vieler homologer lncRNAs trotz variabler Basenfolge nicht unterscheidet. Anscheinend bestimmt die räumliche Struktur in vielen Fällen die Funktion – und solange die Struktur konserviert bleibt, erfüllt die lncRNA weiter ihre jeweilige Aufgabe.

Die Verfasser des Reviews sehen bei etwa 200 Basen eine Grauzone bei ncRNAs. Sie schlagen daher vor, erst ab 500 Basen von einer lncRNA zu sprechen und damit Moleküle zu erfassen, die meist von der RNA-Polymerase (Pol) II gebildet werden. Diese grenzen sie von zwei weiteren Gruppen ab: smallRNAs mit weniger als 50 Basen sowie einer bunten Gruppe, deren Länge „irgendwo dazwischen“ liegt. Zu Letzteren zählen Pol-III-Transkripte wie tRNAs oder 5S-rRNAs, aber auch Pol-V-Transkripte in Pflanzen sowie kleinere Pol-II-Transkripte, etwa snRNAs und einige snoRNAs (small nucleolar RNAs).

„Diese Abgrenzung hinsichtlich der Länge ist natürlich immer künstlich“, stellt der Molekularbiologe Leon Schulte fest, der das RNA-Labor an der Philipps-Universität Marburg leitet. Inwiefern lncRNAs neben dieser Mindestlänge funktionelle oder mechanistische Gemeinsamkeit haben, sei eine ungeklärte Frage. „Deswegen wird diskutiert“, so Schulte, „ob man die Bezeichnung long non-coding RNAs auf Dauer so beibehalten kann, oder ob man künftig zu weiteren Subgruppen gelangt.“

Fehlende Phänotypen

Dass lncRNAs mit Phänotypen-Screenings schwerer auffindbar seien, möchte Schulte so pauschal nicht stehenlassen. „Wir müssen uns vor Augen führen, dass für den Menschen fast so viele lncRNAs annotiert sind wie proteincodierende Gene – dass von den 20.000 lncRNA-Genen nicht alle einen deutlichen Phänotyp ergeben, versteht sich von selbst.“

Die klassische Genetik suchte noch in Organismen wie Drosophila gezielt mit Sättigungs-Screens nach Genen, deren Ausfall sich durch Störungen der Entwicklung bemerkbar macht. Dabei konnte man nur auf Loci mit starkem Phänotyp stoßen. Die moderne Humangenomik befasst sich längst nicht mehr nur mit den guten alten Entwicklungsgenen, sondern sucht nach Assoziationen zu Alzheimer, Tumorerkrankungen oder Depression und Schizophrenie. Auch bei proteincodierenden Sequenzen ist eine eindeutige Zuordnung zu einem Phänotyp nur selten vorhanden. Die wenigsten Volkskrankheits-Allele hätte man mit klassischen genetischen Screens finden können – lncRNA-Gene nehmen in dieser Hinsicht keine Sonderrolle ein.

Porträt Leon Schulte
Leon Schultes Gruppe an der Philipps-Universität Marburg versucht, die Funktionen von langen nicht-codierenden RNAs bei Entzündungsprozessen zu entschlüsseln, die durch Infektionen mit Bakterien ausgelöst werden. Foto: Wilhelm Bertrams

Modulierte Gendosis

Die systematische Suche nach nicht-codierenden RNAs begann, als man Genome immer kostengünstiger sequenzieren konnte. Davor beobachtete man erst den Phänotyp und suchte dann den dazu passenden Genlokus – heute ist es umgekehrt. Es gibt aber auch lncRNAs, die vor dem Zeitalter des Next-Generation-Sequencing anhand ihrer Phänotypen entdeckt wurden. Das oben zitierte Review nennt auch hierzu Beispiele, etwa rox1 und rox2 aus Drosophila. In der Taufliege bestimmt die Anzahl der X-Chromosomen das Geschlecht – und wo immer sich die Anzahl eines Chromosoms geschlechtsspezifisch unterscheidet, muss ein Mechanismus für die Dosiskompensation vorhanden sein. In männlichen Fliegen wird das X-Chromosom stärker abgelesen. Der hierfür verantwortliche Molekülkomplex Male-Specific Lethal (MSL) kommt nur in den männlichen Tieren vor. Er bindet an das X-Chromosom und erleichtert den Transkriptionsfaktoren den Zugang zum Chromatin. Neben diversen Proteinen sind auch RNAs am MSL-Komplex beteiligt.

Schon 1997 erkannten Victoria Meller et al., dass die RNAs rox1 und rox2 (RNA on X) nur von männlichen Fliegen exprimiert werden und im Zellkern am X-Chromosom lokalisiert sind. Die Forschenden fanden keinen Open Reading Frame (ORF), also gab es offenbar kein Protein von diesen RNAs – dennoch sind sie notwendig für die Dosiskompensation in den Männchen (Cell 88(4): 445-57). Inzwischen weiß man, dass rox1 und rox2 im MSL-Komplex mit sogenannten intrinsisch ungeordneten Regionen eines Proteins interagieren und darüber an den Komplex binden. 2020 hatte ein Team um Asifa Akhtar vom Max-Planck-Institut für Immunbiologie und Epigenetik in Freiburg in Kooperation mit der Uni Zürich gezeigt: Ersetzt man im orthologen Säugerprotein MSL2 die intrinsisch ungeordnete Region durch die Aminosäurefolge aus Drosophila und transkribiert rox2-RNA, so kann man auch in Säugerzellen einen solchen Komplex am X-Chromosom inklusive Dosiskompensation induzieren (Nature 589(7840): 137-42).

Übrigens war auch schon die lncRNA XIST seit den frühen 1990ern bekannt – ähnlich wie in der Fliege ist diese RNA für die Dosiskompensation am X-Chromosom von Säugetieren notwendig. Allerdings bei den Weibchen, um Chromatin zu verpacken und damit je eines der beiden X-Chromosomen weitestgehend stillzulegen. 1992 deckten Carolyn Brown und Kollegen auf, dass humanes XIST aus „mindestens acht Exons“ besteht und sie fanden ein über 17 Kilobasen langes Isolat, das sie sequenzieren konnten (Cell 71(3): 527-42).

Tausende von Basenpaaren, und noch dazu Exons und Introns? „Viele lncRNAs unterscheiden sich gar nicht so sehr von mRNA – bis auf die Tatsache, dass sie keinen ORF enthalten“, ordnet Schulte diese Beobachtungen ein. „Sie können ähnlich groß sein, sind häufig polyadenyliert und werden oft auch gespleißt.“

Im Gegensatz zu vielen kleinen ncRNAs beobachtet man bei lncRNAs regelmäßig, dass sie entweder innerhalb enger Zeitfenster aktiv sind oder nur in ganz bestimmten Geweben vorkommen. „Wir sehen eine sehr hohe Zelltypspezifität und glauben, dass lncRNAs für Differenzierungswege wichtige Rollen spielen“, erläutert Schulte. Auch die Splice-Varianten sind vermutlich keine Zufallsprodukte. „Sehr wahrscheinlich gibt es da auch zelltypspezifische Isoformen mit eigenen Funktionen.“

Schultes Arbeitsgruppe sucht nach lncRNAs, die Immunprozesse mitregulieren. „In der Vergangenheit haben wir viele lncRNAs detektiert, die bei Infektionskrankheiten und Entzündungen differenziell reguliert sind“, erklärt er und nennt Sepsis, Autoimmunerkrankungen sowie COVID-19 als Beispiele. „Zumindest nach den Ergebnissen aus unseren Datensätzen können wir über die lncRNA-Transkripte sogar zwischen einzelnen Krankheiten unterscheiden“, freut sich Schulte. Eine lncRNA, die ihnen in der jüngeren Vergangenheit ins Auge fiel, trägt den Namen Macrophage Interferon-regulatory lncRNA 1 (MaIL1). „MaIL1 wird bei Entzündungen und Infektionen in zirkulierenden Monozyten hochreguliert“, fasst Schulte zusammen, „und zwar fast genauso zuverlässig wie klassische Entzündungsmarker“. Die lncRNA ist dabei eingegliedert in einen Pathway des angeborenen Immunsystems, der dem Toll-like Receptor 4 (TLR4) nachgeschaltet ist.

„MaIL1 stabilisiert das Protein Optineurin (OPTN), das die Aktivität der Signalkaskade erhöht, die zur Bildung von Typ-1-Interferonen führt“, geht Schulte auf die Details ein. „Als wir in primären Makrophagen MaIL1 durch RNA-Interferenz stillgelegt haben, waren wir sehr überrascht, wie stark der Phänotyp ausfällt – die Interferon-Produktion bricht dann fast komplett zusammen.“ Es sei nicht die Regel, dass man derart ausgeprägte Effekte für eine einzelne lncRNA zeigen kann, betont der Molekularbiologe, „aber zumindest in diesem Zelltyp und Signalweg scheint MaIL1 absolut essenziell zu sein“. Diese ersten Ergebnisse zum Einfluss von MaIL1 auf die Interferon-Antwort hat sein Team 2020 in PNAS veröffentlicht (PNAS 117(16): 9042-53).

Während miRNAs ihre Ziele durch homologe Basenpaarungen finden, scheint es bei lncRNAs alle möglichen Interaktionen mit anderen Biomolekülen zu geben: In der Literatur wird von Bindungen an RNAs, DNA oder Proteinen berichtet. Wie die Partnermoleküle zusammenfinden, hängt vom Einzelfall ab und ist für die meisten lncRNAs noch nicht abschließend geklärt, weiß Schulte. „Bei klassischen RNA-bindenden Proteinen sind es oft Sequenzmotive, die eine Spezifität zu bestimmten RNA-Strukturen festlegen.“ Dabei könnte die Sekundär- und Tertiärstruktur der lncRNA wichtiger sein als ein konkretes Basenmotiv. „Bei lncRNAs ist die Strukturanalyse aber eine große Herausforderung“, ergänzt der Gruppenleiter. „Das trifft besonders dann zu, wenn Proteine beteiligt sind, die nicht als klassisch RNA-bindend gelistet sind.“

Hier gibt es also jede Menge Neuland zu erkunden. lncRNAs können sowohl im Cytoplasma als auch im Zellkern agieren. Vom Einfluss auf das Chromatin war bereits im Zusammenhang mit der Dosiskompensation der Geschlechtschromosomen die Rede. Es existieren etliche weitere lncRNAs, die mit der DNA im Zellkern co-lokalisiert sind. „Auch wir haben eine lncRNA identifiziert, die DNA bindet und während einer COVID-19-Erkrankung in Immunzellen heruntergeregelt wird“, verweist Schulte auf eine Arbeit aus dem vergangenen Jahr (PNAS 119(36): e2120680119).

Für diese verwendete die Gruppe das Chromatin-Isolation-by-RNA-Purification- oder kurz ChIRP-Verfahren, um ganz gezielt DNA-Abschnitte zu identifizieren, die mit einer bestimmten RNA interagieren. Mithilfe von Formaldehyd vernetzt man Molekülkomplexe auf den Chromosomen und hält sie so zusammen. Im nächsten Schritt wird das Chromatin mit der DNA in kleine Fragmente geschnitten, die fixierten Komplexe bleiben jedoch erhalten. Anschließend fischt man mithilfe von Antisense-Oligos, die an magnetische Beads gekoppelt sind, die gewünschte RNA heraus. Falls diese RNA an Chromatin gebunden ist, bekommt man den zugehörigen DNA-Abschnitt mitgeliefert und kann diesen danach sequenzieren. Mehr zur ChIRP-Technik kann man in einem Methoden-Paper nachlesen, das im Journal of Visualized Experiments erschienen ist (J. Vis. Exp. (61): 3912).

Schema ChIRP-Technik
Mit der ChIRP-Technik isolierte Leon Schultes Team die lncRNA PIRAT, die in Monocyten die Produktion von Alarminen steuert. Illustr.: AG Schulte
PIRAT bremst Immunantwort

Schulte und seine Kollegen fanden in Monocyten und Granulocyten eine zuvor unbekannte regulatorische RNA, der sie den Namen PIRAT gaben. „Wir konnten zeigen, dass diese lncRNA an ein Pseudogen bindet. Sie leitet dadurch einen Transkriptionsfaktor zu dieser Pseudogen-DNA um und hält ihn davon ab, seine eigentlichen Zielgene zu erreichen: die Alarmine S100A8 und S100A9.“

PIRAT ist offensichtlich eine natürliche Bremse für das Immunsystem. Eine der möglichen Ursachen für schwere Corona-Verläufe könnte das Versagen dieser Bremse sein, die vor einer übermäßigen Produktion von Entzündungsmediatoren schützen soll. Die Forschenden sehen darin auch ein mögliches Ziel für pharmazeutische Interventionen. Wie die Details der Bindung von PIRAT an die DNA aussehen, ist nicht aufgeklärt, stellt Schulte klar. „Wir sehen die Bindung an das Chromatin. Ob das jedoch eine direkte Interkalation bedeutet oder über DNA-Bindeproteine wie zum Beispiel Histone vermittelt wird, wissen wir noch nicht.“

lncRNAs können auch mit Enhancern wechselwirken, also mit Abschnitten auf der DNA, die für die Expression eines viel weiter entfernten Genlokus eine Rolle spielen. Auch hier sind mehrere Szenarien denkbar, wie eine lncRNA die Enhancer-Funktion beeinflusst. So könnte sie zum Beispiel andere Proteine an die DNA heranleiten und damit den Enhancer aktivieren. „Es gibt auch Beispiele aus der Literatur, die nahelegen, dass manche lncRNAs, die an einem Enhancer entstehen, eigentlich nur gebraucht werden, um durch diesen Akt der Transkription einmal den Lokus zu öffnen und zugänglich zu machen“, nennt Schulte eine andere Variante.

Vielfältig sind auch die Möglichkeiten, wie lncRNAs im Genom codiert sind. Einige lncRNA-Gene überlappen mit proteincodierenden Sequenzen. Mal liegen sie in Sense-, mal in Antisense-Richtung. Dass eine lncRNA DNA-Abschnitte mit einem proteincodierenden Gen teilt, heißt nicht zwangsläufig, dass beide auch funktionell in einem Zusammenhang stehen. Auch hier könne man sich aber wieder Fälle vorstellen, in denen die Transkription der lncRNA den Promotor auch für die Synthese einer mRNA öffnet. Einige lncRNAs sind jedoch viele tausend Basen lang. Nur um einen Promotor zu aktivieren, wäre es eine ziemliche Ressourcenverschwendung, nebenbei noch kilobasenweise nichtcodierende RNA zu synthetisieren. „Auch dazu gibt es Studien, die zeigen, dass man lncRNAs, die sich einen Promotor mit einer mRNA teilen, wiederum subklassifizieren kann“, erläutert Schulte. „Und da gibt es Antisense-RNAs mit frühen Terminierungsstellen, die schnell polyadenyliert werden. Bei diesen kürzeren lncRNAs wäre es dann auch plausibler, dass sie die Funktion haben, einen Lokus zu öffnen.“

Um die Funktion von lncRNAs zu studieren, muss man sie herunterregulieren oder ausknocken. Das gelinge laut Schulte bei cytoplasmatischen lncRNAs via RNA-Interferenz. Dazu schleust man eine passende siRNA (small interfering RNA) in die Zelle ein. Für Ziele im Zellkern hätten sich Locked Nucleic Acid Gapmers bewährt. Bei dieser Technik markiert man eine ausgewählte lncRNA mit einer Antisense-Sonde für den Abbau durch RNase H.

Nur partielle Deletion

Statt des Knockdowns kann man auch die Gene der lncRNAs ausschalten. Bei lncRNAs, deren Sequenzen sich über viele tausend Basenpaare erstrecken und mit anderen Genen überlappen, ist das jedoch problematisch. Der Knockout könnte ungewollt auch andere Transkripte eliminieren. „Um das zu vermeiden, haben wir eine Methode entwickelt, bei der wir nur die Transkriptions-Startstelle im Promotor des lncRNA-Gens deletieren“, geht Schulte auf diese Problematik ein (PLoS One 13(2): e0193066). „Das sind dann etwa 500 bis 800 Basen, die ausreichen, um ein Gen komplett stillzulegen – das ist also eine minimalinvasive CRISPR-Methode.“

Häufig sei es aber gar nicht nötig, wirklich einen Schnitt auf Genomebene durchzuführen: „Mittlerweile verwenden wir hauptsächlich eine katalytisch inaktive Variante des CRISPR-Enzyms, die wir auf den Promotor setzen; das nennen wir CRISPR-Interference. Die Cas9-Nuklease bindet zwar die Guide-RNA, schneidet aber nicht mehr die DNA. Stattdessen ist Cas9 an eine Repressor-Domäne gekoppelt, die die Transkription hinter der Bindestelle auf der DNA unterdrückt.“

Bislang, so Schulte, habe sich seine Arbeitsgruppe vor allem auf die intergenischen lncRNAs konzentriert, die lincRNAs. Diese überlappen nicht mit proteincodierenden Sequenzen. „Dann wissen wir, dass die Funktion dieser RNA nicht direkt mit der Bildung einer mRNA in Verbindung steht. Die Wahrscheinlichkeit für Funktionsverlust-Phänotypen, die gar nicht auf die lncRNA zurückgehen, ist gering.“

Ob sich die ncRNA-Schublade „lang und nicht-codierend“ auf Dauer bewähren wird, muss die Zukunft zeigen. Zumindest ist die Definition zum aktuellen Stand der Forschung hilfreich – und die Wissenschaftsgemeinde weiß, was gemeint ist.