Editorial

Feinschliff für Organellengenome

(17.5.17) Ohne vernünftige Annotation sind sequenzierte Genome nur inhaltslose Abfolgen von Nukleotiden. Ein neues Web-basiertes Programm erleichtert Pflanzenforschern die Annotation von Organellen-Genomen.
editorial_bild

Genomsequenzierungen werden immer rasanter und kostengünstiger. Arabidopsis thaliana, Beta vulgaris, Cannabis…, die NCBI-GenBank ist vollgestopft mit Sequenzinformationen, und ständig kommen auch neue Organellen-Genome von Mitochondrien, und Chloroplasten hinzu. Leider schleichen sich angesichts der Datenfülle immer wieder Fehler bei der Annotation ein, etwa wenn Exon-Intron-Grenzen nicht oder falsch angezeigt werden.

Für die Annotation von Organellen-Genomen stehen Forschern derzeit vier Programme zur Verfügung, die jedoch alle erhebliche Schwächen aufweisen. So ist etwa das Annotationsprogramm Mitofy ausschließlich für pflanzliche Mitochondrien-Genome geeignet, mit den Programmen CpGAVAS und Verdant lassen sich nur Chloroplasten-Sequenzen annotieren, und DOGMA deckt schließlich Chloroplasten- sowie tierische Mitochondrien-Genome ab, nicht jedoch die Sequenzen pflanzlicher Mitochondrien.

Editorial

Stephan Greiner und seine Kollegen vom MPI für Molekulare Pflanzenphysiologie in Potsdam-Golm erstellten deshalb das Web-basierte Annotationsprogramm GeSeq, das DNA-Sequenzen von Organellen rasch und zuverlässig annotiert (Nucleic Acids Research, DOI: 10.1093/nar/gkx391).

Das gratis online verfügbare GeSeq ist für die Annotation von Chloroplasten-Genomen optimiert, prinzipiell funktioniert es aber auch bei Mitochondrien-Genomen beliebiger, also auch tierischer Organismen.

GeSeq nutzt verschiedene Annotationssoftware von Drittanbietern (tRNAscan-SE, ARAGORN, BLLAT, OGDRAW, TranslatorX, MSUCLE, HMMER) und läuft mit allen gängigen Browsern (Firefox, Chrome, Safari, Internet Explorer sowie Edge).

Dass GeSeq nicht auf dem PC installiert werden muss, die Ergebnisse also direkt erscheinen (ohne wie bei vielen anderen Programmen die E-Mail-Adresse abzufragen), ist schon einmal ein Pluspunkt. Selbst bei umfangreichen Sequenzeingaben liefert GeSeq binnen weniger Minuten Resultate. Ungeduldige können auch mehrere Analysen parallel starten, um so zum Beispiel zu testen, ob die Annotationen abhängig ausgewählter Referenz-Sequenzen variieren. Öffnet man das Programm, so lädt es automatisch eine lokale Kopie sämtlicher Organellen-Genome von der NCBI-Datenbank auf die eigene Festplatte. Dank monatlich durchgeführter Updates bleibt es hierbei auf dem Laufenden.

Die GeSeq-Plattform kommt mit einem eher nüchternen Layout ohne viel Schnick-Schnack daher, auch der Submit-Button springt nicht gleich ins Auge. Die Sequenzen lädt der Anwender als Fasta-File hoch (eine Copy-Paste-Option gibt es nicht), anschließend wählt er passende Referenzsequenzen aus. Diese kann er aus dem GeSeq-Datenrepertoire entnehmen und individuell kombinieren oder von den eigenen Referenzdaten zur lokalen Kopie hinzufügen. Wer verlässliche Referenzsequenzdaten zu bieten hat, sollte diese zentral hochladen und so die GeSeq-Optimierung aktiv mitgestalten.

GeSeq ist für Batch Processing geeignet – das heißt, die Sequenzen müssen nicht einzeln eingegeben und jede Analyse separat durchgeführt werden. Im beliebig großen Heuhaufen, der aus mehreren Organellen-Genomen gleichzeitig bestehen kann, findet das Programm die richtigen Nadeln (Gen-Annotationen), ohne deren Anzahl oder Eigenschaften vorher zu kennen. Optional unterzieht GeSeq die eingegebenen Sequenzen außerdem HMM- sowie BLAT-basierten Homologie-Analysen und liefert so Informationen über die kodierten Proteine. Darüber hinaus erkennt beziehungsweise prognostiziert es auch rRNA-codierte Gene sowie tRNA-Gene.

Für Neulinge bietet das Programm einen zirka zweiminütigen Demo-Run in dem es automatisch hochgeladene Chloroplasten-Sequenzen aus Tabak, Nachtkerze und Mais analysiert. Als Ergebnis liefert es drei Output-Files pro Organismus (ARAGON, OGDRAW und GenBank). Diese können als Textdateien (.txt ARAGON), als Bilddatei (.png beliebig vergrößert. DRAW) oder GenBank-Datei (.gb GenBank) heruntergeladen werden. Die GenBank-Datei lässt sich mit Programmen, wie etwa BioEdit für Sequenzvergleiche, maßgeschneiderte Alignments oder ähnliches öffnen.

Die GenBank-Datei erhält zudem den Zusatz „annotated by ARAGON“. Neue Sequenzen, einschließlich der Annotations-Informationen, haben somit das passende Format, um sie direkt bei Gen-Datenbanken einzureichen.

GeSeq ist eines von fünf Programmen der CHLOROBOX-Werkzeugkiste, die Wissenschaftler am MPI für Molekulare Pflanzenphysiologie weiter optimieren. Laut Homepage kommen demnächst drei weitere Software Tools hinzu: ein Prognoseinstrument zur Proteinlokalisation, ein spezielles Werkzeug für Gen- und Proteinsequenzen aus Tabak sowie ein Programm das Zielsequenzen für das Genom-Editing vorhersagt.

Andrea Pitzschke



Letzte Änderungen: 14.06.2017