Editorial

Tipp 163:
Textmining-Programme

Trick 163

Textmining-Programme buddeln in der verfügbaren wissenschaftlichen Literatur nach den eingegebenen Suchbegriffen. Je cleverer sie dabei vorgehen, desto mehr Literaturstellen fördern sie zu Tage.

Mit einer ineffektiven PubMed-Literaturrecherche kann man sehr viel Zeit vergeuden. Wenn dann auch noch die Trefferquote zu Wünschen übrig lässt, sollte man über Zusatzprogramme nachdenken.

Text-Mineure

Ärgern Sie sich auch manchmal, wenn Sie einen Suchbegriff in PubMed eingeben und anschließend mühsam herausfinden müssen, welche der abertausend Treffer tatsächlich Sinn machen? Abhilfe versprechen Web-basierte Textmining-Programme, mit denen sich die Zahl der unbrauchbaren Nieten bei der PubMed Recherche reduzieren lässt. Zu diesen zählen zum Beispiel ihop, das die Suche nach Proteineinträgen erhöhen soll oder das Programm AliBaba, das die PubMed-Suchergebnisse in einer graphischen Darstellung visualisiert. Weitere Programme, die PubMed auf die Sprünge helfen sollen, sind EbiMed, UKPMC oder GoPubMed.

Verschiedene Minenwerkzeuge

Ulf Lesers Gruppe am Institut für Computerwissenschaften der Berliner Humboldt Universität konnte keines dieser Programme voll überzeugen. Seine Leute setzten sich deshalb an die Rechner und programmierten eine umfassende PubMed-basierte Suchmaschine namens GeneView (Thomas et al., NAR, 2012, 40, W585-91). In GeneView sind sämtliche Artikel von PubMed und PubMed Central Open Access enthalten. Um aus diesen gezielt Artikel herauspicken zu können, verwendet GeneView verschiedene Textmining-Werkzeuge. Eines der wichtigsten ist ein Entitäten-Erkennungsmodul. Unter Entitäten verstehen Bioinformatiker beschreibbare Objekte, wie zum Beispiel chemische Verbindungen, Spezies, Medikamente oder SNPs.

Welche Stolpersteine das Programm bei der Suche nach diesen biologischen Entitäten überwinden muss, verdeutlichen die Autoren am Beispiel der Abkürzung „PAP“. Diese kann für acht verschiedene humane Gene stehen aber auch für „Pulmonary Artery Pressure“.

An alles gedacht

Wie smart GeneView im Vergleich zu PubMed bei der Suche von SNP-Einträgen vorgeht, demonstriert Lesers Gruppe am Beispiel des SNPs Val158Met. PubMed findet hierzu 448 Treffer, übersieht aber Variationen in der Schreibweise dieses SNPs, etwa V158M, Val(158)Met oder Val158/Met. GeneView lässt sich hier nicht so leicht hinters Licht führen und findet 575 Artikel, die die Entität V158M enthalten.

Was GeneView noch kann und ob es tatsächlich hält was es verspricht, können Sie auf der Webseite der Arbeitsgruppe testen unter http://bc3.informatik.hu-berlin.de/.

Harald Zähringer






Letzte Änderungen: 07.10.2012