Editorial

Künstlich-intelligente Begutachtung

(22.06.2021) Maschinelle Sprach­verarbeitung und neuronale Netzwerke versprechen, Peer Review zu beflügeln und von menschlichen Schwächen zu befreien.
editorial_bild

Gegenwärtig erscheinen pro Jahr drei Millionen Artikel in 40.000 Peer-Review-Journalen. Laut einer Publons-Umfrage von 2018 sind dafür jährlich 13,7 Millionen Reviews nötig. Zusätzlich wächst laut International Association of Scientific, Technical, and Medical Publishers die Anzahl an Manuskripten und Zeitschriften um jährlich vier beziehungsweise fünf Prozent.

Einen möglichen Ausweg aus der Flut an Manuskripten bieten maschinelle Sprachver­arbeitung und neuronale Netzwerke, also umgangs­sprachlich „künstliche Intelligenz“ (KI). Für Einreichung und Prozessierung von Manuskripten nutzen die großen Fachzeitschriften Online-Plattformen. Diese koordinieren den Arbeitsablauf zwischen Autoren, Editoren und Gutachtern, sammeln Metadaten, vernetzen eingereichte Referenzlisten mit den Original­arbeiten und suchen nach Plagiaten. All das macht die Manuskript-Begutachtung bereits effizienter, transparenter und bequemer. Komplexe Algorithmen maschinellen Lernens sind dafür freilich noch nicht unbedingt nötig.

Editorial

Keine Vorurteile

KI-Werkzeuge binden sie erst in einem Pre-Peer-Review-Screening ein, das Manuskript-Texte und Abbildungen auf Vollständigkeit, Formatierung und Lesbarkeit überprüft. Für Letzteres analysiert Text-Mining-Software Worthäufig­keiten, Satzlängen und die Komplexität des Vokabulars. Unerfüllte Qualitäts­standards meldet sie unmittelbar an die Autoren zurück.

Die Ambitionen der Software-Ingenieure reichen indes weiter: Wissen­schaftliche Qualität soll vorurteilsfrei bewertet und Peer Review von Systemfehlern befreit werden.

Statcheck beispielsweise –  ein Projekt des Meta-Research Center der Universität Tilburg – spürt Statistikfehler in Forschungs­artikeln auf, indem es Originaldaten aus PDF- oder HTML-Dateien extrahiert und p-Werte und Freiheitsgrade erneut berechnet. Allerdings: „Das Programm detektiert nur Zeichenketten eines bestimmten Formats und übersieht deshalb jede Statistik, die summarisch, in Textform oder in Tabellen wiedergegeben ist,“ konstatiert Thomas Schmidt, Fachgebiets­leiter für Allgemeine Psychologie an der Technischen Universität Kaiserslautern. Auch korrigierte Statistik­ergebnisse erkennt es nicht. Deshalb kommt Schmidt zu dem Urteil: „Ein Programm, das genauso viele falsche Alarme wie Treffer verursacht und die Hälfte der Statistiktests gar nicht erst erkennt, ist sowohl als Schreib­tischhilfe wie auch als Forschungs-Tool ungeeignet.“

Fehlerhafte Werkzeuge

Auch andere Text-Mining-Werkzeuge kämpfen mit Misstrauen. Elsevier und Springer-Nature setzen beispielsweise auf StatReviewer, das Manuskripte zusätzlich auf Probengrößen, Verblindung und erfundene Datenpakete überprüft. Springer-Natures Kommunikations­abteilung gab zwar Fehler des KI-Werkzeugs zu. Autoren würden dadurch aber immerhin auf Erklärungslücken aufmerksam gemacht.

Doch StatReviewer geht einen Schritt weiter: Zusätzlich zur Statistikanalyse gibt es eine erreichte Gesamt­punktzahl und einen Peer-Review-ähnlichen Report aus. Auch der KI-Forschungs­assistent Scholarcry verdaut Veröffentlichungen und fasst Schlüssel­informationen auf interaktiven Karteikarten zusammen. Dadurch sollen Manuskripte in dreißig Prozent der Zeit bewertet werden können.

Lassen sich Gutachter und Editoren folglich von derartigen Vorzügen verführen, Entscheidungen auf der Basis automatisiert erstellter Berichte zu treffen? Thomas Schmidt bleibt skeptisch: „Gegenwärtig kann kein Algorithmus wissen­schaftliche Qualität feststellen. Ein Programm bräuchte dafür eine Art Tiefen­verständnis, wie Wissenschaft funktioniert und berichtet wird. Da Text-Mining-Software weder kontext­sensitiv arbeitet noch semantisch versteht, ist sie überfordert.“

Viel Verständnis

Allerdings scheint all das nur eine Frage der Zeit zu sein. Laut seinen Programmierern „versteht“ zum Beispiel das dänische KI-Werkzeug UNSILO bereits komplexe Sprach­elemente wie Präpositionen, Negationen, Attribute sowie Ungewissheiten und erfasst sogar deren semantische und syntaktische Varianten. Das Extraktions­werkzeug sucht in Manuskript­texten nach Schlüssel­phrasen, erstellt aus ihnen hoch­dimensionale Netzwerk­modelle und nutzt diese, um Autoren zu identifizieren, deren PubMed-Artikel identische Schlüssel­konzepte enthalten. Autoren mit möglichen Interessens­konflikten entfernt es anhand ihrer Affiliation und schlägt schließlich die besten Überein­stimmungen als Gutachter vor. Dies baut die Gefahr von Vorurteilen im Peer-Review-Verfahren ab, da als Gutachter auch dem Editorial Board unbekannte Personen in Frage kommen. Auch wenn Forscher aus demselben Schaffensort nicht automatisch schlechtere Gutachter sein müssen.

Eines dürften all diese Beispiele jedoch klar zeigen: In der Wissenschafts­begutachtung führt kein Weg mehr an maschinellen Lernalgo­rithmen vorbei. StatReviewer kommt regelmäßig im Aries Editorial Manager zum Einsatz. UNSILO ist Bestandteil von Clarivate Analytics ScholarOne. Elsevier hat mit Expert Lookup ein ähnliches Werkzeug am Markt. Seit Juni 2020 vereint auch der Artificial Intelligence Review Assistant (AIRA) des Open-Access-Herausgebers Frontiers alle genannten Funktionalitäten. Und KI-Initiativen wie Meta, eine Analyse­plattform biomedizinischer Literatur, blicken sogar in die Zukunft, indem sie den Entwick­lungsverlauf von Forschungs­feldern vorhersagen.

Aus einem anderen Blickwinkel könnten KI-Helfer allerdings eher kontraproduktiv wirken. Weil sie die Manuskriptflut begünstigen, indem sie Erleich­terungen beim Peer Review bieten – und damit eine Modernisierung des wissenschaftlichen Evaluations- und Belohnungs­systems weniger drängend erscheinen lassen.

Henrik Müller

Bild: AdobeStock/pathdoc

Dieser gekürzte Artikel erschien in ausführlicher Form in Laborjournal 6-2021.


Weitere Artikel aus unserem aktuellen Heft


- „Ich mache mir keine großen Sorgen“

Leif Erik Sander ist Infektiologe an der Berliner Charité. Im Interview berichtet er über die Lage rund um die SARS-CoV-2-Mutanten und verrät, welchen Einfluss sie auf die Impfstrategie haben.

- Polarisierend

Hefegenetiker haben ein neues Detail der Polarisierung von Zellen beschrieben – und mussten dabei so manche Hypothese begraben.

- Schwerpunkt weiblich – Publikationsanalyse Reproduktionsforschung 2010-2019

Viele Zitierungen zur Reproduktionsbiologie sammeln insbesondere Forscher an Instituten zur Tierzucht. Oozyte, Zygote und der weibliche Uterus sind dabei von größerem Interesse als männliche Gameten.

 




Letzte Änderungen: 17.06.2021