Überschätzte Helfer

(24.03.2020) Plagiate in wissenschaftlichen Texten nachzuweisen, ist nicht einfach. Häufig genutzte Erkennungs­softwares sind allerdings mit Vorsicht zu genießen.
editorial_bild

Editorial

Immer mehr Fachzeitschriften nehmen die Hilfe von Dienstleistern beziehungsweise Software-Systemen in Anspruch, mit denen die Verlage eingereichte Texte auf Plagiate überprüfen wollen. „Diese Programme funktionieren alle ähnlich“, weiß Norman Meuschke, Informatiker an der Bergischen Universität Wuppertal und der Universität Konstanz. „Der Nutzer speist ein Eingabedokument in das System ein, welches das Dokument gegen eine große Kollektion abgleicht.“

Wie diese Kollektion aussieht, unterscheidet sich von Anbieter zu Anbieter, und stellt gleichzeitig ein großes Qualitätsmerkmal dar. „Große und erfolgreiche Anbieter wie beispielsweise Turnitin stellen die Vergleichskollektion selbst zusammen, sowohl aus frei zugänglichen Internetquellen als auch urheberrechtlich geschütztem Material.“ Bei letzterem würden die Anbieter teils Verträge mit den entsprechenden Verlagen eingehen, um auf beispielsweise Publikationen, Bücher und Zeitschriften zugreifen zu können. Andere Anbieter verzichten auf eine eigene aufwendig gepflegte Kollektion und nutzen das indizierte Internet, das von Suchmaschinen bereitgestellt wird – also eine Index-Kollektion, die ein schnelles Auffinden bestimmter Daten im Internet ermöglicht. „Texte hinter Paywalls fallen da natürlich raus.“

Aktuell gibt es über fünfzig Software-Systeme, online oder offline, die bei der Erkennung von Plagiaten beziehungsweise deren Vorbeugung helfen sollen. Neben Turnitin steht auch das aus demselben Hause stammende iThenticate als Erkennungs-Tool Hochschulen, Verlagen und Forschungs­einrichtungen zur Verfügung. Aber auch Systeme wie Urkund, Copyscape oder PlagAware dienen der Plagiatsprüfung – um nur ein paar zu nennen.

Editorial

Komplexe Plagiate

Plagiate zu entdecken, kann jedoch komplex sein. Ausgeschlossen die Plagiatsfälle, bei denen einfach Textstellen kopiert und Quellen verschwiegen werden, gibt es einige Indikatoren, die darauf hindeuten, dass mit einem Text etwas nicht stimmt. Recht offensichtliche Indizien sind beispielsweise Schreibstilwechsel, Rechtschreibfehler oder Schriftart­änderungen. Schwieriger zu erkennen, sind hingegen Paraphrasierungen oder Textpassagen, die ursprünglich in einer anderen Sprache formuliert wurden. So oder so, Erkennungs­softwares stoßen hier an ihre Grenzen. Der Wuppertaler Informatiker Meuschke: „Die aktuellen Systeme leisten nicht mehr als reinen Textvergleich. Um Ideen- oder Übersetzungsplagiate aufzudecken, müssen auch Bilder, Grafiken, Formeln und Quellenverweise überprüfbar sein.“

Meuschke und seine Kollegen vom Lehrstuhl für Data and Knowledge Engineering möchten genau das umsetzen und schicken die Applikation HyPlag ins Rennen der Software-Systeme zur Plagiatserkennung – oder vielmehr einen Prototyp. Denn aktuell lernt die Software noch auf Basis bestätigter Plagiate, fernab vom reinen Textvergleich Indikatoren für Plagiate zu erkennen. So ist das System bereits in der Lage, Paraphrasierungen aufzuspüren. „Wir legen den Fokus darauf, mit dem System etwas zu tun, was aktuellen Softwares nicht gelingt“, sagt Meuschke.

Editorial

Problem: Datenschutz

Neben den technischen Grenzen der Erkennungssoftware-Systeme bereitet Plagiatsforscherin Debora Weber-Wulff, die seit 15 Jahren solche Systeme testet und als Informatikerin an der Hochschule für Technik und Wirtschaft (HTW) Berlin forscht, vor allem das Thema Datenschutz Kopfzerbrechen: „Wir wissen nicht, was mit den Daten passiert.“ In einer Untersuchung hatte Weber-Wulff mehrere Softwares zur Plagiat-Erkennung überprüft, die Ergebnisse erschienen auf dem Preprint-Server arXiv (2002.04279). Ein Anbieter gab auf seiner Homepage bis vor kurzem noch an, neun Monate nachdem der Nutzer einen Text getestet hat, diesen als gutes Beispiel für wissenschaftliches Schreiben anderen Leuten zur Verfügung zu stellen. „Derselbe Anbieter betreibt auch einen Ghostwriting-Service“, sagt Weber-Wulff und vermutet, dass die eingereichten Manuskripte nicht als Lehrproben an Ghostwriter weitergeleitet, sondern direkt als Manuskripte verkauft werden. „Die Information wurde mittlerweile von der Homepage entfernt und die Firma bestreitet, Texte zu verkaufen – doch nach wie vor betreiben sie den Ghostwriting-Dienst. Sagen wir mal vorsichtig: Ich bin skeptisch.“ Habe man die Texte erst einmal zur Überprüfung eingereicht, verliere man jegliche Kontrolle.

Kritische Prüfung

Trotz offensichtlicher Schwächen konzentrieren sich unter Zeitdruck stehende Redakteure, Professoren und Administratoren oft auf die Plagiat-Scores der Erkennungs­softwares, wenn sie Entscheidungen treffen, die für Wissenschaftler und Stipendiaten von entscheidender Bedeutung sind, schreibt Weber-Wulff in einem Artikel für Nature (567: 435). Sie und Meuschke sind sich einig: Es ist unabdingbar, dass ein Mensch die Ergebnisse der Software-Systeme nicht einfach hinnimmt, sondern kritisch überprüft. „Jeder Nutzer einer solchen Software sollte zwei Dinge im Kopf behalten: falsch positive und falsch negative Ergebnisse. Ich habe verschiedene Systeme gesehen, die einen Text als vollständig oder teilweise plagiiert eingestuft haben – oder als plagiatfrei“, berichtet Weber-Wulff.

Weber-Wulff ermahnt deshalb zum korrekten Umgang mit den Erkennungs­systemen und hält spezielle Trainings für Nutzer für sinnvoll. „Nicht nur, wie die Software bedient wird, sondern auch, wie sie mit den Ergebnissen aus den Systemen umzugehen haben und was diese bedeuten.“ Weber-Wulff hat noch einen weiteren Tipp: „Jeder Redakteur eines Fachjournals, der selbst publiziert hat, sollte eines seiner eigenen Paper mal durch ein paar Erkennungs­systeme schicken, um zu sehen, wie groß die Rate der falsch positiven und falsch negativen Ergebnisse ist. Das rückt den Plagiat-Score aus den Ergebnisberichten in ein ganz neues Licht.“

Juliet Merz

Dieser Artikel wurde für unsere Webseite stark gekürzt. Den vollständigen Artikel können Sie in unserem aktuellen Heft (LJ 3-2020) lesen.

Bild: Juliet Merz