Der europäische Galaxy-Server demokratisiert die Analyse biowissenschaftlicher Daten

Von Anika Erxleben-Eggenhofer, Freiburg


Editorial

(14.07.2023) Die Erhebung rechenintensiver Sequenzdaten ist Standard in den Biowissenschaften. Dennoch fehlt vielen Forschern und Forscherinnen sowohl das nötige Wissen für die Datenanalyse als auch ein einfacher Zugang zu kostenfreien großen Recheninfrastrukturen. Das Galaxy-Projekt ist auf dem besten Weg, dies zu ändern.

Seit 2005 bietet das Galaxy-Projekt [1] eine kostenfreie Open-Source-Lösung an, die Biowissenschaftlern den Zugang zur Datenanalyse mit einer benutzerfreundlichen Umgebung erleichtert. Der Galaxy-Server ist mittlerweile ein fester Bestandteil vieler deutscher, europäischer und globaler Projekte. Ursprünglich wurde er vom Deutschen Netzwerk für Bioinformatik-Infrastrukturen (de.NBI) gefördert, inzwischen ist Galaxy Partner in mehreren nationalen Forschungsinfrastruktur-Projekten (zum Beispiel NFDI DataPlant, NFDI Bioimage) sowie in europäischen Projekten (etwa EuroScienceGateway, EOSC4Cancer, BY-COVID).

Die von Wissenschaftlern der Pennsylvania State University entwickelte Galaxy-Plattform ermöglicht den Zugang zu vielen Bioinformatik-Werkzeugen und Analyse-Tools, die ohne Programmierkenntnisse oder technische Kenntnisse bedient werden können. Forscher und Forscherinnen können ihre eigenen Daten auf die webbasierte Plattform hochladen, Referenzdaten aus Datenarchiven importieren, Analysen durchführen und ihre Ergebnisse visualisieren. Eine Installation ist nicht notwendig.

Symbolbild mit zwei Personen und DNA
Illustrationen: Tim Teebken - Bearbeitung Ulrich Sillmann

Editorial

Der seit 2010 bestehende europäische Galaxy-Server (Galaxy-EU) [2] ist die größte Galaxy-Instanz für die Analyse biowissenschaftlicher Daten in Europa. Unter der Leitung von Björn Grüning wird er vom Freiburg Galaxy Team an der Universität Freiburg gemeinsam mit anderen europäischen Wissenschaftlern und Wissenschaftlerinnen betrieben und zählt mittlerweile über 70.000 Benutzer, die ihn als zentrale Anlaufstelle in Europa nutzen.

Der European-Galaxy-Server kann große Datenmengen verarbeiten und erlaubt den Zugriff auf leistungsstarke Rechenressourcen, die sowohl in Freiburg als auch an anderen Standorten in Deutschland und Europa zur Verfügung gestellt werden. Mit dem Server lassen sich komplexe Analysen in kürzester Zeit durchführen – die Nutzer sind jedoch reine Anwender und müssen keine zusätzliche (Denk-)Arbeit in die IT-Infrastruktur investieren. Eine tiefergehende, aktive Beteiligung ist aber dennoch möglich und auch immer willkommen.

Entwickler von Bioinformatik-Werkzeugen beziehungsweise Tools können ihre Open-Source-Programme nach einem erfolgreichen Community-Review-Prozess den Galaxy-Benutzern zur Verfügung stellen. Über einen Tool-Katalog (ToolShed) [3] können alle Tools von einem Galaxy-Administrator auf den Galaxy-Servern installiert werden.

Die Benutzerfreundlichkeit ist ein wesentlicher Vorteil des European-Galaxy-Servers. Die Plattform wurde so gestaltet, dass auch Forscher und Forscherinnen mit wenig Erfahrung in der Bioinformatik leicht darauf zugreifen und ihre Daten einfach analysieren können. Dies ist insbesondere durch eine intuitive Benutzeroberfläche gewährleistet, mit der sich die Ergebnisse auch in einer verständlichen Form visualisieren lassen.

Der Server beherbergt mehr als 3.200 Bioinformatik-Werkzeuge [4]. Die Palette reicht von einfachen Textmanipulations-Tools für die Bearbeitung mehrerer GB großer Excel-Dateien über Mapping- und Assembly-Tools für genomische Daten bis zu Statistik-Werkzeugen, Auswerte-Software für Imaging-Daten sowie zahlreichen Visualisierungen, etwa mit Diagrammen, Plots oder Heat Maps.

Galaxy-Nutzer können auf verschiedene Datenarchive zugreifen, um die eigenen Daten mit bereits vorhandenen abzugleichen. Zu diesen gehören zum Beispiel das European Nucleotide Archive (ENA) und NCBI sowie Datenbanken für Organismen, etwa Flymine und Yeastmine, aber auch andere bekannte Ressourcen wie UniProt, UCSC Main Table Browser sowie Biomart Ensembl.

Die Galaxy-Plattform arbeitet so weit als möglich nach den FAIR (Findable, ­Accessible, Interoperable und Reproducible)-Prinzipien [5]. Jeder einzelne Schritt des Benutzers wird in der sogenannten History gespeichert. Die History ist mit einem elektronischen Laborbuch vergleichbar, das jeden Datenanalyseschritt mit den genauen Parametern und Metadaten aufzeichnet, etwa das verwendete Tool mit der Versionsnummer und den jeweils eingestellten Parametern. Das gewährleistet eine genaue Dokumentation der analysierten Daten und vereinfacht die Reproduktion der Ergebnisse.

Alle Tools lassen sich zu sogenannten Workflows kombinieren, um die Analysen zu automatisieren. Die Workflows reihen die In- und Output-Dateien der Tools aneinander –die Output-Dateien dienen jeweils als Input für den nächsten Analyseschritt, gleichzeitig können auch verschiedene Datenformate konvertiert werden. Hierdurch ist es möglich, mehrere hundert Analyseschritte zu automatisieren und dabei die Parameter ohne großen Aufwand anzupassen. Galaxy-Nutzer können die Tools und Workflows untereinander teilen und für gemeinsame Arbeiten einsetzen.

Galaxy-EU wird von Wissenschaftlern und Wissenschaftlerinnen aus unterschiedlichen Disziplinen genutzt, für die jeweils spezifische Tools bereitstehen [6]: Etwa für Pflanzenwissenschaften, Ökologie, Metagenomik, Chemieinformatik, Klimaforschung, Imaging und Machine Learning. Die Communitys können ihre Daten auf speziellen Subdomain-Seiten tauschen und finden dort auch die für sie geeigneten Werkzeuge.

Ein weiteres wichtiges Element des Galaxy-Projekts ist das Galaxy Training Network (GTN) [7]. Dieses besteht aus einer Gruppe von Experten und erfahrenen Mitgliedern der Galaxy-Community, die Schulungen und Tutorials zu verschiedenen Aspekten der Datenanalyse mit Galaxy anbieten. Das Netzwerk vermittelt den Teilnehmern die erforderlichen Fähigkeiten und Kenntnisse, die nötig sind, um die Galaxy-Plattform effektiv zu nutzen und optimale Ergebnisse zu erzielen. In über 300 Tutorials mit Schritt-für-Schritt-Anleitungen, Präsentationen und Videoanleitungen [8] können sich Anfänger und Fortgeschrittene, Tool-Entwickler sowie Administratoren von Galaxy-Instanzen in der Datenanalyse weiterbilden. Galaxy-Experten haben aus aufeinander aufbauenden Tutorials sogenannte Learning Pathways kreiert, die es den Teilnehmern erleichtern sollen, sich das Wissen sukzessive und logisch strukturiert anzueignen. Neben dem Material für das Selbststudium existieren zahlreiche Galaxy-Workshops [9], in denen Galaxy-Instruktoren die User schulen. Die Experten teilen ihre Erfahrungen mit den Teilnehmern und geben praktische Tipps, die ihnen helfen sollen, ihre Analysen effizienter und präziser durchzuführen. Sie geben zudem Einblicke in bewährte Workflows und erläutern, wie verschiedene Analysewerkzeuge kombiniert werden können, um möglichst viel aus den Daten herauszuholen.

Für Galaxy-Instruktoren stellt Galaxy im Rahmen des Serviceangebots „Training Infrastructure as a Service“ (TIaaS) die nötige Infrastruktur für Schulungen zur Verfügung. Nach der Anmeldung über ein einfaches Formular werden dedizierte Rechenkapazitäten etwa für einen Galaxy-Workshop freigegeben. Der Instruktor kann sich den Fortschritt des Kurses über ein sogenanntes Dashboard visuell anzeigen lassen – insbesondere bei Online- oder Hybridtrainings ist dies eine hilfreiche Funktion, um besonders schnelle oder langsame Teilnehmer besser zu unterstützen oder generelle Probleme, etwa bei den Tool-Laufzeiten, zu identifizieren. Bisher fanden fast 400 Kurse statt, in denen mehr als 36.000 Teilnehmer mit Galaxy vertraut gemacht wurden.

Die einfache Bedienbarkeit der Galaxy-Plattform und die zahlreichen Tutorials sind auch für die Citizen-Science-Projekte hilfreich, in denen sich das europäische Galaxy- Team engagiert. Die Projekte sollen interessierten Laien ohne wissenschaftliche Kenntnisse einen Zugang zur Forschung ermöglichen. Die StreetScienceCommunity [10] hat dafür zum Beispiel das BeerDEcoded-Projekt entwickelt, bei dem die Teilnehmer in kleinen zweitägigen Workshops die DNA aus Hefestämmen von verschiedenen Biersorten isolieren und sequenzieren. Das Team verwendet dazu einen Nanoporen-Sequenzierer, der kleiner ist als ein gewöhnliches Handy und die Daten für die Sequenzanalyse direkt auf den Galaxy-Server überträgt.

Referenzen

[1] https://galaxyproject.org
[2] https://usegalaxy.eu
[3] https://toolshed.g2.bx.psu.edu
[4] https://usegalaxy-eu.github.io/tools.html
[5] https://www.forschungsdaten.org/index.php/FAIR_data_principles
[6] https://usegalaxy-eu.github.io/posts/2020/12/28/subdomains
[7] https://training.galaxyproject.org
[8] https://gallantries.github.io/video-library/library
[9] https://galaxyproject.org/eu/events
[10] https://streetscience.community



Portraitfoto Anika Erxleben-Eggenhofer
Foto: Univ. Freiburg

Zur Person

Anika Erxleben-Eggenhofer hat an der Albert-Ludwigs-Universität Freiburg Biologie studiert und dort in der Pflanzenbiotechnologie bei Ralf Reski promoviert. Seit 2015 ist sie im Freiburg Galaxy Team verantwortlich für das Projektmanagement von nationalen und internationalen Projekten sowie für Lehre und Galaxy-Training für Studierende und Galaxy-Benutzer.