Editorial

Bis der Elefant mit dem Rüssel wackelt!

(04.05.2021) Modellierungen sind derzeit sehr gefragt, obwohl deren Vorhersagen oftmals sehr zu wünschen übrig lassen – denn sie basieren auf bloßen Annahmen.
editorial_bild

Das Zeitalter der Universal­gelehrten kehrt zurück! Seit etwa einem Jahr eifern Wissen­schaftler da Vinci, Leibniz sowie von Humboldt und Co. nach. Virologen äußern sich öffentlich wie auch politischen Entscheidungs­trägern gegenüber zur Epidemiologie, Physiker zur Infektions­biologie, Mathematiker zu viralen Oberflächen­proteinen und so weiter. Dabei war es doch bisher die Domäne der Narren, ungestraft Späße zu beliebigen Themen zu machen! Auch deshalb erlaube ich mir heute, mich ungeniert der mathe­matischen Modellierung in Zeiten der Pandemie zuzuwenden.

Modellierer sind momentan ja sehr gefragt. Wir lesen ihre Arbeiten in Nature und Science, man lauscht ihnen bei Markus Lanz und Konsorten, sie beraten Politiker und rechnen für nationale Akademien. Ein Wunder ist das nicht, schließlich versprechen ihre Formeln und Modelle nicht weniger als die Aufklärung komplexer Zusam­menhänge. Sie sagen uns, was passieren könnte, wenn wir gewisse Dinge tun oder lassen. Auch erklären sie uns, welche Maßnahmen zur Pandemie­bekämpfung wirksam sind – und welche nicht. Häufig mahnen sie und belegen ihre eigenen Empfehlungen mit konkreten Zahlen.

Editorial

Genauso wünscht man sich doch Hand­reichungen aus der Wissenschaft. Die Politik bekommt Argumente für ihre Entscheidungen – und Bürger sehen ein, warum die Schule schließen muss oder das Geschäft die Türe wieder öffnen darf.

Modellierer sind auf vielen Feldern schon länger recht erfolgreich. Ein Parade­beispiel hierfür ist der Wetterbericht. Mit im Mittel etwa siebzig Prozent Treff­sicherheit gelingt es den Meteorologen, das Wetter der nächsten sieben Tagen vorherzusagen. In die Modelle, die auf Supercomputern gerechnet werden, gehen unzählige Messungen ein, die das atmo­sphärische Geschehen vom Boden bis viele Kilometer in die Höhe abbilden. Ihre Rechnungen berück­sichtigen die Temperatur- und Strömungs­dynamik der großen Gewässer und sogar die fluktuierenden Bahnen von Mond und Sonne. All dies mit höchster Mess­genauigkeit. Möglich wird eine Wetter­vorhersage mit solcher Treff­sicherheit aber nur, weil die meteoro­logischen Zusam­menhänge von verschiedenen Temperaturen und Drücken sowie Wind-, Wasser- und Planeten­bewegungen durch internationale wissen­schaftliche Kooperationen bereits lange untersucht und mittlerweile recht gut verstanden werden.

Ein anderes schönes Beispiel für erfolgreiche Modellierungen kommt aus der Geophysik. Ausbrüche von Vulkanen lassen sich überraschend gut vorhersagen, wie zuletzt bewiesen beim Fagradalsfjall-Vulkan in Island. Auch diese Vorhersagen beruhen auf einer Vielzahl von exakten seismologischen beziehungsweise Satelliten-Messungen, auf zumindest teilweise verstandenen Mechanismen vulkanischer Aktivität sowie schließlich auf jahrelanger Optimierung der Modelle.

Aber selbst diese Modellierer liegen oft daneben. Dann ärgern wir uns, vor dem Regen nicht gewarnt worden zu sein. Und so mancher Vulkan will trotz eindringlicher Warnungen einfach nicht ausbrechen.

Wie aber steht es angesichts dessen um die Vorher­sagekraft und somit um die Nützlichkeit der so allgegen­wärtigen Modellierungen in der Pandemie? Leider gibt es mittlerweile eine Menge Hinweise darauf, dass es damit nicht zum Besten steht. Die Modellierer sind offensichtlich so sehr mit dem Generieren neuer Modelle beschäftigt, dass sie kaum dazu kommen, die Güte und das Eintreten ihrer Vorhersagen zu analysieren.

Dies hat man offensichtlich den Journalisten überlassen.

So analysiert etwa ein Artikel in der Tageszeitung Die Welt (Literatur­zitate wie immer bei http://dirnagl.com/lj) die wichtigsten Vorhersagen aus dem Umfeld von Deutschlands prominentester Modelliererin, Viola Priesemann (siehe auch LJ 12/2020: 14-17). Dabei zeigt sich zum einen, dass die meisten Schluss­folgerungen aus den Modell­rechnungen sehr vage verfasst waren. Wie bei Horoskopen passten sie damit zu jedem Verlauf. Und dort, wo konkrete Zahlen vorhergesagt wurden, sind diese sehr häufig nicht eingetreten. Es sei denn, es handelte sich um Triviales, wie die Vorhersage eines weiteren Anstieges am Anfang eines bereits deutlich sichtbaren Verlaufes.

Sobald es jedoch darum ging, die Wirksamkeit von Pandemie­maßnahmen zu prognostizieren, wurde es richtig problematisch. Nur ein Beispiel hierfür ist die Vorhersage aus der Leopoldina-Stellung­nahme vom 8. Dezember letzten Jahres. Dort wurde Folgendes vorausgesagt: „Wenn ab dem 14. Dezember die Maßnahmen streng verschärft werden, dann sinken die Fallzahlen in der Modellrechnung bis Januar auf unter 50 pro 1.000.000 Einwohner.“ Wie wir alle wissen, ist dies trotz erfolgtem hartem Lockdown nicht eingetreten: Die Inzidenzraten stiegen zwar nicht weiter, verharrten aber auf hohem Niveau.

Die zugehörige Modellierung basierte auf dem im Juli 2020 in Science veröffent­lichten Modell aus dem Max-Planck-Institut für Dynamik und Selbst­organisation in Göttingen – und auf Daten aus dem Frühjahr 2020. Das Modell bezog sich damit auf eine völlig andere Umsetzung und Akzeptanz von Maßnahmen als im Vorher­sagezeitraum. Wie vielen solcher Modellie­rungsstudien fehlten hier aber auch Kontrollen, wie wir sie in jeder biomedi­zinischen Arbeit erwarten würden. Zum Beispiel hätte man die Güte des Modells durch Anwendung auf anderen Datensätze, zum Beispiel aus einem anderen Land oder über einen anderen – am besten auch längeren – Zeitraum hinweg, überprüfen können.

Moment, Kontrollen beim Modellieren? Ja, das geht – sogar recht einfach. Das Modell, so eine zentrale Aussage des Artikels, würde die Wirksamkeit und damit Notwen­digkeit eines harten Lockdowns in Deutschland belegen. Hätten die Autoren ihr Modell aber beispielsweise auch auf Schweden angesetzt, wäre dort ein ganz ähnlich geartetes Absinken der Fallzahlen heraus­gekommen. Nur dass es dort keinen Lockdown gab! Diese Kontroll­rechnung konnte der Neurologe und Physiker Christian Meisel durchführen, da Viola Priesemanns Gruppe ihr Modell inklusive Daten ins Netz stellte (Kudos dafür!). Meisel entwickelt normalerweise Modelle, mit denen sich aus Elektro­enzephalo­gramm-Daten epileptische Anfälle vorher­sagen lassen und ist deshalb mit der Technik wohlvertraut.

Ähnliches wie für das Göttinger Modell gilt indes auch für die Modelle des Imperial College in London (ICL). Diese hatten großen Einfluss auf die Pandemie­maßnahmen der englischen Regierung. Auch hier lagen die Vorhersagen häufig extrem daneben. Der australische Mathematiker Vincent Chin und andere konnten außerdem zeigen, dass verschiedene publizierte Modelle des ICL zu ganz unter­schiedlichen Resultaten kommen, wenn man sie auf die gleichen Länder loslässt. Was die Londoner selbst bezeich­nenderweise nicht gemacht hatten.

Ist dies alles überraschend? Deutet es darauf hin, dass die Pandemie-Modellierer ihr Handwerk nicht recht verstehen?

Im Gegensatz zu den Meteoro­logen basieren ihre Model­lierungen auf schlechten oder sogar nicht-vorhandenen Daten, also bloßen Annahmen. Dies gilt sowohl für die Corona-Inzidenzen wie auch viel mehr noch für die Auswirkungen nicht-pharmako­logischer Interventionen. Außerdem hängt alles entscheidend davon ab, ob und wie die Maßnahmen in der Bevölkerung dann tatsächlich umgesetzt werden. Bei einer höchst unsicheren Datenlage, wie sie zum Beispiel allein schon durch die sich ständig ändernden Testkapa­zitäten und -raten, insbesondere am Anfang einer Pandemie, vorkommt, ist es unabdingbar, diese elementare Fehler­behaftung kritisch zu berücksichtigen.

Datenfehler pflanzen sich fort, das lernt man spätestens im Physik-Praktikum. Und sie tun das umso mehr, wenn sie in komplexe, multipara­metrische Modelle und Wachstums­verläufe eingehen. Dazu kommen jede Menge nicht vorher­sehbarer Einfluss­größen – wie etwa das Auftreten von Virusmutanten mit veränderter Infektiosität oder Letalität, die Effektivität von Vakzi­nierungen oder auch unvermeidliche Rück­koppelungs- und Selbst­regulierungs­mechanismen, weil die Vorhersagen sich ja ihrerseits bereits auf das Verhalten der Bevölkerung auswirken.

In Anbetracht all dessen ist die oft propagierte Pseudo­genauigkeit der Modellierungs­ergebnisse schlichtweg vermessen. Es ist, als würde man mit Kanonen – nämlich komplexen, multipara­metrischen Model­lierungen – auf Spatzen – also auf grob fehler­behaftete und nicht-valide Daten­grundlagen – schießen.

Ein schönes Beispiel ist hier auch der Rückgang des Autoverkehrs in der Pandemie. In den USA wurden im letzten Jahr rund 13 Prozent weniger Meilen gefahren. Folglich dürfte auch die Zahl der Verkehrstoten abgenommen haben, was demnach einer der wenigen positiven Effekte der Pandemie wäre. Falsch! Die Verkehrstoten haben zugenommen wie seit 1924 nicht mehr, nämlich um 25 Prozent pro gefahrener Meile. Retrospektiv sucht man nun nach Gründen hierfür, wie beispiels­weise vermehrter Alkohol­konsum. Doch was hier jetzt viel wichtiger ist: Man hätte diesen überraschenden Effekt wohl kaum vor dessen Bekannt­werden in einem Modell der Gesamt­mortalität während der Pandemie berücksichtigen können.

Ein weiterer wichtiger Grund für das Versagen der Modelle ist, dass deren Annahmen ja durch die in der Pandemie angeordneten Maßnahmen modifiziert werden. Dies ist sogar ein erwünschter Effekt, schließlich erheben die Modellierer genau deswegen häufig ihren Zeigefinger. Allerdings wäre das gerade so, als wenn sich das Wetter in Abhängigkeit davon ändern würde, ob wir einen Regenschirm aufspannen oder nicht. Dann würde auch der Wetterbericht nicht mehr funktionieren.

Hinzu kommt, dass Modellierungs­studien in der Regel weder Studien­protokolle vorab veröffentlichen noch präregistriert werden – wie dies eigentlich heutzutage für qualitativ hochwertige Studien selbst­verständlich sein sollte. Damit ist einem Herum­probieren, „bis es passt“, Tür und Tor geöffnet.

Auch historisch betrachtet haben Model­lierungen von Epidemien keinen guten Track Record, allerdings erinnert sich heute kaum noch jemand daran. Man denke aber nur mal zurück an die Schweine­grippe oder an die Bovine Spongiforme Enzephalo­pathie (BSE). Auch damals lagen die prominenten Modellierer, die heute übrigens immer noch ganz vorne mit dabei sind, mit ihren Vorhersagen massiv daneben.

Bei der bereits erwähnten Prädiktion von epileptischen Anfällen – auch hier geht es ja um die Vorhersage zukünftiger Ereignisse aus komplexen Datensätzen – hat man übrigens aus den initialen Fehlern gelernt. Nach einer anfänglichen Euphorie mit darauf­folgender kritischer Ernüchterung und Fehler­analyse ist eine etwas demütigere, aber dennoch nicht weniger relevante Wissenschaft entstanden. Mittlerweile gibt es dort rigorose Methoden, mit denen die jeweilige Güte von Vorhersagen geprüft werden kann. Die Pandemie-Modellierer von heute täten gut daran, mal einen Blick hierauf zu werfen.

Vielleicht besteht aber der eigentliche Nutzen der Pandemie-Modellierungen darin, Worst-Case-Szenarien wissen­schaftlicher erscheinen zu lassen – und damit einschneidende Maßnahmen für die breite Masse einleuchtender und akzeptabler zu machen. Diese also wissen­schaftlich zu bebildern. Das ist aber eine gefährliche Strategie: Zum einen, weil Vorhersagen, die daneben­liegen, ihre Überzeu­gungskraft verlieren – zum anderen, weil die Modelle ja behaupten, die Nützlichkeit oder Schädlichkeit bestimmter Maßnahmen und Verhaltens­weisen zu „objektivieren“. Wie zum Beispiel Schul­schließungen, Ausgangs­sperren oder Abstandsregeln. Wenn die offen­sichtlichen und teils schwer­wiegenden Limitationen der Modelle nicht erkannt oder berücksichtigt werden, sie aber dennoch die Grundlage für unser Handeln in der Pandemie liefern – dann läuft etwas schief.

Allerdings: Ob und – wenn ja – welchen Einfluss die derzeit sehr medien­präsenten Modellierer überhaupt auf die Politik haben, oder ob sie von dieser nur benutzt werden, um politisch motivierte Entscheidungen zu recht­fertigen, ist unklar. Dafür können die Modellierer natürlich erstmal nichts. Allerdings wehren sie sich auch nicht gegen eine solche Instrumen­talisierung, sondern genießen die mediale Aufmerk­samkeit. Der Narr hatte sich ja bereits in Laborjournal 11/2020 (S. 22-24) über das komplette Fehlen einer evidenz­basierten, inklusiven, gründlichen, transparenten und zugänglichen wissen­schaftlichen Beratung der Corona-Politik echauffiert. Darin kommt er zu dem Schluss, dass das post-darwinistische Motto „wissenschafts­basierter“ Pandemiepolitik derzeit ein „Survival of the ideas that fit“ ist.

Modellierung funktioniert in der Pandemie bisher nur dort, wo sie sich auf wenig komplexe sowie teilweise gut verstandene Zusam­menhänge verlässt und zudem die Datenlage einigermaßen robust ist. Das ist leider nicht häufig der Fall. Zum Beispiel liefert sie recht verlässliche und nützliche Vorhersagen, wo es um den Zusam­menhang von Infektions-Inzidenz, Auslastung von Intensiv­stationen und Todesfällen geht.

Sobald die Modellierer sich aber auf komplexe, kaum oder gar nicht verstandene und zudem noch volatile Zusam­menhänge stürzen, sobald die zugrunde­liegenden Parameter auf nicht-verlässlichen oder nur geschätzten Daten beruhen, und sobald die Vorhersage Einfluss auf ihr eigenes Ergebnis hat – dann funktioniert es nicht mehr richtig. Die daraus resultierenden überkomplexen Modelle werden, damit überhaupt etwas Plausibles dabei herauskommt, „overfitted“ – es wird also mehr Rauschen als Signal modelliert. Eine vertiefte Diskussion der Limitationen und Unsicher­heiten solcher Modelle samt deren Aussagen würde dabei genauso stören wie passende Kontrollen – und damit in weniger öffentlicher Aufmerk­samkeit resultieren.

John von Neumann, Mathematiker, Physiker und Computer-Pionier, wird mit dem Bonmot zitiert: „Mit vier Parametern kann ich einen Elefanten fitten, und mit fünf ihn mit dem Rüssel wackeln lassen.“ Wenn mit Rüssel-wackelnden Elefanten und dem Gestus mathematisch-physikalischer Autorität Politik­beratung gemacht wird, ist das nicht ohne Risiko.

Ulrich Dirnagl

Der Wissenschaftsnarr dankt Christian Meisel und Gerd Antes für anregende Diskussionen.

Weiterführende Literatur und Links finden sich wie immer unter: http://dirnagl.com/lj

 

Weitere Einsichten des Wissenschaftsnarren

 

- Boost your Score! – Freiwillige Selbstinszenierung im Wettbewerb der Wissenschaftler

Wie oft beschweren wir Forscher uns darüber, dass unser Denken und Urteilen sich immer mehr an Impact-Faktoren und anderen Zahlenmetriken ausrichtet – und dass dadurch die Bewertung nach Inhalt und professionellen Standards verdrängt wird. Dabei sind wir selber schuld. Wir machen das Spiel doch freiwillig mit ...

- Back to the Future: Von industrieller zu inhaltlicher Forschungsbewertung

Wie effizient kann ein Bewertungssystem sein, dessen Messgrößen sich von den Inhalten, der Relevanz und der Qualität der Forschung verabschiedet haben? Sie haben es gemerkt: Wir sprechen von der schrägen Forschungsevaluation anhand reiner Zahlen aus bibliometrischen Daten und Drittmitteleinwerbung. Ist solch ein System, das sich weltweit durchgesetzt hat, überhaupt noch reformierbar? Unser Wissenschaftsnarr meint: Aber sicher!

- Von Maus zu Mensch durch das Tal des Todes

Die Translation von Ergebnissen der Grundlagenforschung in die klinische Anwendung klappt nicht besonders gut. Dabei ließen sich einige schwache Glieder der Translationskette sehr leicht ersetzen. Dumm nur, dass die neuen Glieder leider nicht so recht in unser akademisches Karriere- und Fördersystem passen würden.

 



Letzte Änderungen: 04.05.2021