Editorial

Tipp 213: Datenanalyse mit dem Galaxy Server

213a
In Workshops des Freiburg Galaxy Team lernen die User, wie die Datenanalyse mit dem Galaxy Server funktioniert. Foto: Freiburg Galaxy Team

Das Freiburg Galaxy Team kümmert sich nicht nur um den europäischen Galaxy Server, der Biowissenschaftlern Zugang zu mehr als 1.500 Bioinformatik-Tools ermöglicht. Es unterstützt die User auch mit Tutorials und bietet Workshops zur Datenanalyse mit Galaxy an.

Viele Lebenswissenschaftler kennen das: Endlich kommt vom Sequenzierlabor die ersehnte E-Mail, dass die Daten der RNA-Sequenzierung oder des ChIP-Experiments zum Download bereitstehen. Klickt man dann auf den mitgeschickten Link, öffnet sich eine lange Liste mit Dateien, in denen die Rohdaten der Sequenzierung gespeichert sind.

Schwierige Datenauswertung

Und jetzt? Im Studium werden selten ausreichende Kenntnisse zur statistischen Auswertung von Hochdurchsatzdaten vermittelt. Die dafür nötige Software ist meist kommerziell, so dass nicht jede Arbeitsgruppe eine Lizenz besitzt. Und um kostenfreie Open-Source-Software nutzen zu können, sind fast immer Programmierkenntnisse notwendig. Hinzu kommt, dass viele dieser Programme in Windows nicht lauffähig sind.

Für viele Wissenschaftler ist das ein großes Problem. Die meisten möchten ihre Daten gerne selbst auswerten oder sich zumindest daran beteiligen. Unterstützt werden sie dabei vom Freiburg Galaxy Team, das zu Rolf Backofens Bioinformatik-Gruppe an der Universität Freiburg gehört. Das von Björn Grüning geleitete Team entwickelt für die Open-Source-Programme der Bioinformatik Plattform Galaxy grafische Oberflächen. Mit diesen können auch Biowissenschaftler ohne Informatikkenntnisse hochkomplexe Programme selbst verwenden, um beispielsweise Hochdurchsatzdaten aus Sequenzier-Projekten eigenständig auszuwerten.

Die Galaxy-Plattform wird von einem welt­umspannenden Bioinformatiker-Netzwerk entwickelt. Ziel ist ein umfassendes Programmpaket für Biowissenschaftler, mit dem diese wissenschaftliche Daten transparent und reproduzierbar analysieren können. Dafür ist kein Download und keine Installation einer Software notwendig. Galaxy kann einfach über einen Webbrowser (zum Beispiel Chrome oder Firefox) aufgerufen und bedient werden.

Werkzeuge ohne Ende

Das Freiburg Galaxy Team entwickelt und unterhält den offiziellen Galaxy Europe Server (https://usegalaxy.eu), einen der größten Galaxy Server weltweit. Nach der kostenfreien Registrierung auf der Webseite stehen dem Nutzer über 1.500 verschiedene Datenanalyse-Tools zur Verfügung. Diese können frei in sogenannten Workflows miteinander kombiniert werden. Das Herunterladen der Analyse-Ergebnisse und anschließende Hochladen als Input eines neues Analyse-Schritts entfällt.

Um Tools miteinander kombinieren zu können, kann Galaxy 300 definierte Dateiformate prozessieren (zum Beispiel bam, bcf, bed und bedgraph) und bietet dafür verschiedene Konvertierungen zwischen den Formaten an.

Jeder Analyseschritt wird in einer History dokumentiert, welche die einzelnen Rechenschritte mit allen Einstellungen zu Parametern und Tool-Version speichert. Man kann sich das vorstellen wie ein elektronisches Laborbuch, mit dem es zusätzlich möglich ist, die Histories und auch die Workflows mit anderen Galaxy-Benutzern (oder über einen Link sogar mit Externen) zu teilen – und später auch als Methodenteil einer Publikation zu veröffentlichen.

Cleverer Excel-Ersatz

Die Bandbreite der Werkzeuge reicht von einfachen Textanalyse-Tools bis zu Programmen zur Datenauswertung von RNAseq, ChIPseq, Exome-Seq, Methylierungen, Metagenomics, Genom-Annotation oder Cheminformatics. Mit den Tools zur Textmanipulation lässt sich beispielsweise Excel ersetzen. Einfache Funktionen, wie Einträge in Dateien zählen, Zeilen oder Spalten vereinen, Text ersetzen et cetera, lassen sich einfach und schnell auf vielen hunderttausend Zeilen oder Spalten ausführen. Oder haben Sie es schon mal geschafft, ein 100 Megabyte, geschweige denn Gigabyte großes File in Excel zu öffnen?

Neben vielen Datenanalyse- und Statistik-Tools stellt Galaxy eine Vielzahl an Visualisierungsmöglichkeiten zur Verfügung. Neben diversen Diagrammtypen, die man aus Excel kennt, zum Beispiel Balken- und Venn-Diagramme, können unter anderem auch interaktive Heatmaps, phylogenetische Bäume und zirkuläre Diagramme in hochauflösender Qualität erstellt werden. Galaxy bietet darüber hinaus einen direkten Zugang zu verschiedenen Datenbanken. So können etwa Daten aus ­ENSEMBL, NCBI (BLAST), ENA, dem UCSC Main Table Browser oder UniProt direkt importiert werden.

Prinzipiell kann jedes Werkzeug oder auch ein selbstgeschriebenes Programm in Galaxy integriert werden. Bei Bedarf kann dafür das Freiburg Galaxy Team kontaktiert werden. Als Galaxy-Benutzer muss man sich keine Sorgen über die Rechenkapazitäten des eigenen Computers machen. Hinter dem Galaxy Europe Server steht neben dem Supercomputer Nemo die Cloud des Deutschen Netzwerks für Bioinformatik-Infrastruktur (de.NBI), die jedem Benutzer Datenspeicher und Rechenkapazitäten zur Verfügung stellt.

Wer keinen permanenten Internetzugang hat, seine Daten lieber lokal auf dem eigenen PC speichern möchte oder mit klinischen Daten arbeitet, kann alle präparierten Workflows mit allen dazugehörigen Tools und Tutorials als sogenannte „Container“ herunterladen. Ein Container ist eine komplette Galaxy-Workbench mit allem was man braucht, zugeschnitten auf eine ausgewählte Analyse.

Workflows und Tutorials

Für viele Analysen von Hochdurchsatzdaten stehen auf der Galaxy-Trainingsseite standardisierte Analyse-Workflows und Tutorials bereit (http://training.galaxyproject.org). Derzeit werden mehr als fünfzig Tutorials zum Selbststudium angeboten, unter anderem zur Benutzung von Galaxy selbst, RNAseq, ChIPseq, Variant calling, Epigenetik, Proteomics, Metabolomics und Metagenomics. Die Tutorials beinhalten immer einführende Präsentationen zum jeweiligen Thema, Trainingsdatensätze und eine detaillierte Schritt-für-Schritt-Anleitung (Hands-on-Training) des jeweiligen Analyse-Workflows.

In kleinen Quiz-ähnlichen Aufgaben zu den einzelnen Schritten können die Ergebnisse durchdacht und mit den vorgegebenen Antworten überprüft werden. Darüber hinaus kann man sich in sogenannten Interactive Tours durch jeden Schritt der Analyse führen lassen (https://usegalaxy.eu/tours/core.galaxy_ui). Dabei beschreibt ein kleines Fenster direkt in Galaxy was genau zu tun ist und zeigt, wo man das jeweilige Tool findet. In der Interaktiven Tour werden echte Daten live analysiert. Jeder Nutzer kann mit den Pfeiltasten seiner Tastatur selbst entscheiden, wie schnell er sich durch die Analyse leiten lässt – oder ob er beispielsweise einen Schritt nochmal wiederholen möchte, um ihn besser zu verstehen.

Eines der größten Steckenpferde des Freiburg Galaxy Teams ist neben dem Online-Trainingsmaterial das große Angebot an Trainingskursen und Workshops. In Freiburg werden derzeit zweimal im Jahr Galaxy Hands-on-Workshops angeboten, die jeweils fünf Tage dauern und ganztags durchgeführt werden. Themen sind unter anderem eine Einführung in Galaxy, (Single-Cell) RNAseq Datenanalyse, ChIPseq-Datenanalyse, Exome seq und Auswertung von Bisulfit-Sequenzierungen.

Die Workshops starten immer mit einer kurzen theoretischen Einführung ins Thema, gefolgt von einer Schritt-für-Schritt-Anleitung durch einen Galaxy-Trainer, wobei alle Teilnehmer an einem eigenen Computer die Analyse parallel ausführen.

Begehrte Kurse

Die Kurse sind überaus gut besucht und offen für jedermann. Teilnehmer sind typischerweise Biologen, Mediziner und andere Lebenswissenschaftler. Neben den Kursen in Freiburg gibt das Team Workshops in anderen Städten Deutschlands, in Europa und sogar weltweit.

Galaxy gibt jedem Wissenschaftler die Möglichkeit, seine Daten selbst zu analysieren und stellt dafür eine Vielzahl an Tools, Workflows und Trainingsmaterial zur Verfügung. Warum also nicht einfach mal einen Standardanalyse-Workflow mit einem vorgegebenen Beispieldatensatz ausprobieren, um ein Gefühl für die vielzitierten Big Data zu bekommen? Oder gleich die frisch sequenzierten Rohdaten hochladen und Schritt für Schritt den Tutorials folgen? Das Freiburg Galaxy Team wünscht allen Interessierten viel Spaß bei der Datenanalyse und freut sich darauf, Fragen zu Galaxy zu beantworten (gruening@informatik.uni-freiburg.de).

Anika Erxleben

(Anika Erxleben hat Pflanzenbiotechnologie studiert und ist seit 2015 Postdoktorandin im Freiburg Galaxy Team)



Letzte Änderungen: 09.09.2018