Suche
Links und Funktionen
Sprachauswahl
Navigationspfad
Hauptnavigation
Inhalt
Arbeitsgebiet "Textmining"
Textmining ist ein automatisierter Prozess, mit dem natürliche Sprache in Textform analysiert wird. Textmining gliedert sich in verschiedene Teilaufgaben; z.B. beschäftigt sich Information Retrieval (IR) mit dem Auffinden von Dokumenten, die für eine bestimmte Fragestellung relevant sind, Information Extraction (IE) zielt auf das Auffinden von Entitäten (Objekten), Tatsachen oder Ereignissen ab. Named Entity Recognition (NER) ist die Unterdisziplin von IE, die sich mit dem Erkennen von Entitäten in Texten beschäftigt. Das Ziel der Text Klassifikation ist die Gruppierung von Dokumenten mit ähnlichen Inhalten.
Textmining spielt in der Bioinformatik eine wichtige Rolle, da ein Grossteil des biologischen Wissens nur in Form von Text zugänglich ist. Um dieses Wissen zu extrahieren, ist es wesentlich, biologische Objekte in Texten zu erkennen, dies gilt insbesondere für Gene und Proteine.
Unsere Arbeit zielt darauf ab:
Informationen aus Texten zu extrahieren
Aus Texten Netzwerke zur weiteren Analyse zu generieren
Text-Informationen zusammen mit Daten aus anderen Quellen (z.B. Genexpressionsdaten ) zu analysieren
Research team
Protein Services
A thesaurus for gene and protein names.
Allows for:
manual querying and editing of the entries of curated synonym dictionaries
searching all Synonyms for a given gene/protein via PubMed and Google
contains dictionaries for human, mouse, rat, fly and yeast
A biological name and markup web service for automated querying via custom software.
Integration of the ProThesaurus web services into Microsoft Office applications for retrieval and markup of gene and protein names.
Syngrep
Suche nach benannten Objekten in biomedizinischen Texten
Die wissenschaftliche Literatur ist die umfassendste Quelle von Informationen über biologische Objekte und ihre Wechselwirkungen. Leider wird in den Freitexten keine einheitliche und standardisierte Nomenklatur von biologischen Objekten (Genen, Proteinen, Krankheiten, Zellen, Organismen, etc.) und von Relationen zwischen den Objekten verwendet. Deshalb sind Textmining Verfahren notwendig um biologische Objekte zu identifizieren (‚named entity recognition (NER)’) und Objekt-Relationen zu extrahieren. Dabei müssen verschiedene Schreibweisen und Abkürzungen erkannt und mehrdeutige Bezeichnungen eindeutigen Objekten zugeordnet werden.
Ein häufig verwendetes Verfahren für die NER ist das Durchsuchen der Texte mithilfe von sogenannten Synonymlisten. Synonymlisten für die Gene und Proteine höherer Organismen wie z.B. Mensch umfassen etwa 30-50.000 Objekte mit durchschnittlich ca. 10-15 Synonymen. Dabei sind die Datenmengen recht groß (z.B. simultane Suche von 170K Objekten mit 1.6M Synonymen in 19M Pubmed Abstracts (66 Gb XML, 26 Gb Text)) zum anderen hängt die Qualität des Resultats ganz wesentlich von der Qualität und Kurierung der Synonymlisten ab. Das von uns eingesetzte Programm syngrep ist viel speicher-effizienter und mehr als hundertfach schneller als bekannte Unixtools wie fgrep [3]. Hochwertige Lösungen des NER Problems hat eine Reihe von Anwendungen: Zuordnung von Annotationen an identifizierte Objekte, Erweiterung der Wissensbasis über die identifizierten Objekte durch in der Literatur beschriebene Fakten.
RelEx
Extraktion von Objekt-Objekt Wechselwirkungen aus biomedizinischen Texten
Es gibt i.W. zwei Verfahren zur Extraktion von Relationen aus Freitexten. Methoden des statistischen Lernens ordnen bestimmten Textpassagen bestimmte Relationen zu, indem sie aus geeigneten annotierten Testmengen lernen. Linguistische Methoden analysieren die grammatikalische Struktur der Sätze und erkennen aus den Satzbestandteilen mit Hilfe geeigneter Regeln die Objektrelationen. Leider ist die Auflösung der Syntax-Strukturen englischer Sätze aus wissenschaftlichen Texten nicht befriedigend gelöst, so dass eine überbordende Menge an Regeln nötig ist, um die Relationen zu extrahieren.
Der RelEx Ansatz [Fundel07] verwendet den Stanford Dependency Parser, um sogenannte Abhängigkeitsbäume für die einzelnen Sätze zu berechnen. Durch einige wenige Baumtransformationsregeln Relationen zwischen den ‚named entities’ extrahiert. Abhängigkeitsbäume können Satzteilbeziehungen recht gut modellieren, so dass man sich auf wenige Regeln beschränken kann, die benutzerfreundlich in Prolog werden können.
Das manuell kurierte Testset mit Relationen aus der HPRD .
Publikationen
2007
2006
2005
Papers
Martin Szugat , Daniel Güttler , Florian Sohler , Ralf Zimmer .
Web Servicing the Biological Office .
Bioinformatics, vol 21, no. (Suppl. 2), pp. 268-269, 2005.
Katrin Fundel , Daniel Güttler , Ralf Zimmer , Joannis Apostolakis .
A simple approach for protein name identification: prospects and limits .
BMC Bioinformatics, vol 6, no. (Suppl.1), pp. S15, May 2005.
Katrin Fundel , Daniel Hanisch , Heinz-Theodor Mevissen , Ralf Zimmer , Juliane Fluck .
ProMiner: rule-based protein and gene entity recognition .
BMC Bioinformatics, vol 6, no. (Suppl.1), pp. S14, May 2005.
2004
2003
Papers
Daniel Hanisch , Juliane Fluck , Heinz-Theodor Mevissen , Ralf Zimmer .
Playing biology's name game: identifying protein names in scientific text .
Russ B. Altman , Keith A. Dunker , Lawrence Hunter , Teri E. Klein (eds.):
Proceedings of the 8th Pacific Symposium on Biocomputing (PSB 2003), Lihue, Hawaii, USA, January 3-7, 2003, pp. 403-414, 2003.
Servicebereich
Fußzeile