Steuert Google Scholar, was wir zitieren?

17. September 2019 von Laborjournal

Na ja, ganz so ist es natürlich nicht. Schließlich sind es immer noch die Autoren, die bestimmen, welche Paper sie in die Referenz­listen ihrer eigenen Manuskripte aufnehmen. Allerdings sind Autoren manchmal auch einfach faul — und dann bestimmt die allseits beliebte Literatur-Such­ma­schi­ne Google Scholar deren Zitierverhalten womöglich wirklich ganz schnell mit.

Vorletzte Woche tweetete beispielsweise der Scientific-American-Reporter George Musser folgendes über einen Vortrag beim Metascience 2019 Symposium an der Stanford University:

Demnach zeigte der Informationswissenschaftler Jevin D. West von der University of Washington („@jevinwest“) in seinem Vortrag Daten, nach denen Forscher wohl öfter schlichtweg diejenigen Paper zitieren, die Google Scholar ihnen bei oberflächlicher Recherche gleich „vorne“ anzeigt — auch wenn „weiter hinten“ in den Suchergebnissen womöglich Artikel folgen, die es viel mehr verdient hätten, für die jeweilige Studie zitiert zu werden.

Fachleute bezeichnen dies als “First Results Page Syndrome”, nach dem Suchmaschinen-Nutzer diejenigen Dokumente stark bevorzugen, die ihnen gleich auf der ersten Ergebnisseite angezeigt werden. Und im Gegensatz zu anderen wissenschaftlichen Literatur-Datenbanken sortiert Google Scholar eben nicht nach Datum, sondern nach Relevanz. Wobei Google Scholar „Rele­vanz“ insbesondere anhand der Zitierungen der einzelnen Artikel misst.

Zusammen mit dem First Results Page Syndrome und der Bequemlichkeit der Autoren sorgt dies dafür, dass die Zitierungen sich insgesamt immer stärker auf immer weniger sowieso schon viel­zitier­te Artikel konzentrieren. Und klar, dass davon wiederum bevorzugt ältere „Klassiker“ profi­tie­ren, während aktuelle Paper mit den neuesten Erkenntnissen zum jeweils zitierten Aspekt ungerechtfertigterweise ignoriert werden — einfach, weil sie noch nicht genügend Zitierungen sammeln konnten, um im Google-Scholar-Ranking auf den ersten Ergebnisseiten gelistet zu werden. Genau diese Schere reißt durch das Prinzip des Google-Scholar-Rankings allerdings immer weiter auseinander.

Zahlen, die diesen Trend belegen, veröffentlichten interessanterweise Google-Mitarbeiter bereits Ende 2014 (arXiv:1411.0275v1). Diese analysierten die Zitationen in sämtlichen Veröffentli­chun­gen, die zwischen 1990 und 2013 in nahezu allen von Google Scholar Metrics gelisteten Zeit­schrif­ten erschienen waren. Für das Jahr 2013 fanden sie, dass 36 Prozent der Zitate auf Artikel fielen, die zu diesem Zeitpunkt schon mindestens zehn Jahre alt waren — eine Quote, die um 28 Prozent höher war als 1990. Betrachteten die Autoren lediglich die Publikationen aus der Kategorie Life and Earth Science waren es sogar 39 Prozent „Ü10-Artikel“ und eine Steigerung um 36 Prozent gegenüber 1990. In beiden Fällen war die Steigerungsrate in der zweiten Hälfte des Analy­se­zeit­raums (2002-2013) doppelt so hoch wie in der ersten (1990-2001).

Der Trend zur stetigen Zunahme von Zitationen immer älterer Artikel bestätigte sich nochmals, wenn die Autoren nach Artikeln screenten, die zum Zeitpunkt der Zitierung mehr als 15 bezie­hungs­weise 20 Jahre alt waren. „Ü15-Artikel“ legten von 1990 bis 2013 in den Referenzlisten um 30 Prozent zu, „Ü20-Artikel“ gar um 36 Prozent.

Dass dieser Trend auch mit dem „Relevanz-Ranking“ ihrer eigenen Literatur-Suchmaschine zusammenhängen könnte, schrieben die Google-Mitarbeiter allerdings nicht in ihrem Artikel. Diesen Zusammenhang, wie er oben beschrieben ist, stellten vielmehr spanische Kollegen her, die deren Zahlen etwas später neu kommentierten — und veröffentlichten ihn in Scientometrics unter dem Titel „Back to the past: on the shoulders of an academic search engine giant“ (Bd. 107(3): 1477-87).

Und ebenso präsentierte offenbar der eingangs erwähnte Vortrag von Jevin West weitere Daten, die eine klare Korrelation zwischen der Konzentration von Zitierungen auf immer weniger und ältere Publikationen sowie dem Ergebnismuster von Google-Scholar-Literatursuchen zeigten.

Doch wo es um „Korrelationen“ geht, ist immer irgendwer skeptisch, ob tatsächlich auch eine Ursache-Wirkung-Beziehung zwischen den beiden Phänomenen besteht. So auch in diesem Fall. Zwei Beispiele aus der Twitter-Diskussion über Wests Vortrag:

Andere dagegen sind sich bereits sicher, dass Google Scholar das Zitierverhalten tatsächlich auf die beschriebene Weise zumindest mitsteuert:

Oder:

Wobei wieder andere dies am Ende noch drastischer ausdrücken:

Ralf Neumann

x

Schlagworte: , , , , , , , , , , ,

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert

Captcha loading...