Extraktion von Ternären Relationen aus deutschsprachigen Texten

1 minute read

Einleitung

Aktuelle Web Intelligence Systeme wie der Media Watch on Climate Change (www.ecoresearch.net/climate) analysieren umfangreiche Datenbestände und reichern diese mit Metadaten wie zum Beispiel Ort der Berichterstattung, Sentiment (positiv/negativ), Schlagwörter, etc. an, welche in weiterer Folge automatisierte Auswertungen und Visualisierungen ermöglichen. Somit erlauben Web Intelligence Systeme die Identifikation und in Folge auch die Extraktion von entscheidungsrelevanten Daten aus Web Ressourcen.

Die vorliegende Arbeit widmet sich der automatischen Erkennung von ternären Relationen (zum Beispiel: Person, Organisation + ein Set von Verben und Präpositionen ("arbeitet bei", "leitet", ...)) mittels Open Information Extraction, welche wiederum wichtige Bausteine für den Aufbau von Wissensbasen und die Visualisierung von domänenspezifischen Zusammenhängen darstellen.

Daher sollen im Rahmen dieser Arbeit folgende Ziele erreicht werden:

  1. Vermittlung eines Überblicks über aktuelle Methoden und Software zur Identifikation von ternären Relationen, welche auch für deutschsprachige Dokumente anwendbar sind.
  2. Ermittlung eines standardisierten Testcorpus zur Evaluierung dieser Methoden
  3. Auswahl, gegebenenfalls Anpassung an die deutsche Sprache und Evaluierung von mindestens zwei unterschiedlichen Open Information Extraction Systemen mit einem Fokus auf
    • Güte der Ergebnisse (Precision, Recall, F1) und
    • Durchsatz (Dokumente/min) des Verfahrens.
  4. Integration von einem Open Information Extraction System in ein Web Service, das Dokumente entgegen nimmt und eine Liste von identifizierten Named Entites zurück liefert.

Vorschlag für die Struktur der Arbeit

  1. Einleitung
    1. Motivation
    2. Beschreibung der Problemstellung
  2. Stand der aktuellen Forschung
  3. Methode (Kriterien für die Softwareauswahl, ausgewählter Evaluierungscorpus, ...)
  4. Evaluierung
  5. Open Information Extraction Web Service
  6. Zusammenfassung und Ausblick

Empfohlene Vorkenntnisse

  • HTML Basiskenntnisse
  • Eine der folgenden Programmiersprachen: JavaScript, Java, Python

Literatur

  1. Gerald Weber (2011): "Generic Relation Extraction", Diplomarbeit, Institut für Informationswirtschaft, Wirtschaftsuniversität Wien
  2. Fader, Anthony, Soderland, Stephen and Etzioni, Oren (2011). ''Identifying Relations for Open Information Extraction'', Proceedings of the Conference on Empirical Methods in Natural Language Processing, 2011
  3. reverb.cs.washington.edu — Open Information Extraction Software
  4. www.htwchur.ch/?id=web_intelligence