Datenvisualisierung für alle

(04.09.2019) Kommerzielle Programme zur Visualisierung von Daten sind meist teuer und kompliziert. Kostenlos und leicht zu bedienen sind zwei neue Web-Tools aus Amsterdam.
editorial_bild

Editorial

Biologische Varianz macht das Leben so herrlich abwechs­lungsreich, aber eben auch schwer zu verstehen. Kaum ein Ei gleicht dem anderen, und deshalb heißt es: messen, messen, messen. Unterschiedliche Proben in zig Replikaten, bis sich ein hoffentlich aussage­kräftiger Mittelwert heraus­kristallisiert.

Wenn schon so viel Energie in die Daten­sammlung geflossen ist, sollten die Ergebnisse möglichst anschaulich präsentiert werden – inklusive dem statistischen Schnick­schnack, der für Glaubwür­digkeit sorgt. Gegenüber nüchternen Excel-Grafiken bringen kommerzielle Software-Pakete mehr Pfiff in den Datenwust, kosten aber viel Geld und setzen Informatik-Kenntnisse voraus.

Für Freaks und Normalos

Editorial

Marten Postma und Joachim Goedhart von der Universität Amsterdam meinten aber, gute Daten gehören unabhängig vom Budget gescheit publiziert. Deshalb haben die zwei Molekular­biologen vom Swammerdam Institute for Life Sciences an einer eigenen, frei zugänglichen Software getüftelt. Ihr Web-Tool „PlotsOfData“ baut auf der nur Programmier-Freaks geläufigen Software ggplot2 auf, ist aber so konzipiert, dass auch Normalos durchsteigen.

Der Daten-Input ist im Excel- oder CSV (comma-separated values)-Format möglich. Das gängige Wide-Data-Format, bei dem Daten einzelner Messreihen in separaten Spalten stehen, wird automatisch in das Tidy-Data-Format umgewandelt.

Mit dem Tidy-Data-Format kann das Programm weiterarbeiten und Dotplots generieren. Sprich, die Datenwerte erscheinen in einem Diagramm als Punkte. Damit das Ganze nicht wie eine wilde Pünktchen-Ansammlung aussieht, kann der Nutzer die Farbintensität der Punkte variieren. Aus dem dezenten Hintergrund hunderter Pünktchen hebt sich dann zum Beispiel der automatisch angezeigte Mittelwert deutlich ab. Alternativ kombiniert man Dotblot und Boxplot, wobei wiederum die Sichtbarkeit von Punkten und Box variiert werden können.

Editorial

Variables Prinzip

Ebenso möglich ist die Kombi von Dot- und Violinplot, bei dem entlang der x-Achse betrachtet die größten Werte in der Mitte und kleinere Werte der Größe nach sortiert rechts und links davon stehen. Das Gesamtbild ist symmetrisch, wie bei einer Geige, die Konturen und farbige Füllung können nachgezeichnet werden. Der Mittelwert lässt sich auch hier hervorheben. Egal, um welche Kombination von Plots es sich handelt, das Prinzip ist gleich: Messpunkte und Elemente zur statistischen Information liegen in verschiedenen Ebenen, deren Transparenz sich unabhängig voneinander variieren lässt.

Mittelwert, Standard­abweichung, Vertrauens­intervalle und ähnliche statistische Raffinessen berechnet die Software automatisch. Diverse individuelle Anpassungen sind möglich, etwa die Darstellung im log10-Maßstab. Wer seine Lieblings­einstellung erst einmal gefunden hat, kann diese als HTML-Bookmark ablegen und nur mit dieser Einstellung weiterarbeiten oder sie zur weiteren Optimierung klonieren. Als Output sind die Plots im PDF- oder PNG-Format speicherbar.

Evolutionärer PlotTwist

Die weiterentwickelte App PlotTwist programmierte Joachim Goedhart im Alleingang als nächste Evolutions­stufe von PlotOfData. Mit ihr können Daten aus Zeitreihen ästhetisch ansprechend und leicht verständlich dargestellt werden. Nehmen wir zum Beispiel den Blutzucker­wert. Zum Zeitpunkt Null trinkt ein Dutzend Probanden ordentlich Trauben­zucker-Lösung. Ihre Blutzucker­werte steigen gehörig aber individuell vorübergehend an. Die Messreihen lassen sich als klassisches Diagramm mit (x-Achse: Zeit, y-Achse: Zucker­spiegel) darstellen (wahlweise farbig, als Punkte, Linien etc.), oder aber in einer Heatmap. Die x-Achse steht wie gehabt für die Zeit. Für jeden Probanden erscheint im Diagramm ein horizontaler Balken, über den gesamten Zeitverlauf. Im Beispiel wären das also zwölf Balken übereinander. Die Farbe der einzelnen Balken, zum Zeitpunkt x, gibt Auskunft darüber, wie hoch der Zuckerspiegel des dazugehörigen Probanden war. Netterweise nimmt PlotTwist bei seiner individuell wählbaren Palette auf Farben­blinde Rücksicht.

Goedhart und Postma rufen explizit zu Optimierungs­vorschlägen und Kritik an PlotsOfData sowie PlotTwist auf. Loswerden können Sie diese auf Goedharts Twitter-Account @joachimgoedhart.

Andrea Pitzschke

Postma M. & Goedhart J. (2019): PlotsOfData – A web app for visualizing data together with their summaries. PLoS Biology, 17(3): e3000202

Goedhart J. (2019): PlotTwist – a web app for plotting and annotating time-series data. BioRxiv, DOI: 10.1101/745612