Extraktion von Named-Entities aus deutschsprachigen Texten

1 minute read

Einleitung

Aktuelle Web Intelligence Systeme wie der Media Watch on Climate Change (www.ecoresearch.net/climate) analysieren umfangreiche Datenbestände und reichern diese mit Metadaten wie zum Beispiel Ort der Berichterstattung, Sentiment (positiv/negativ), Schlagwörter, etc. an, welche in weiterer Folge automatisierte Auswertungen und Visualisierungen ermöglichen. Somit erlauben Web Intelligence Systeme die Identifikation und in Folge auch die Extraktion von entscheidungsrelevanten Daten aus Web Ressourcen.

Die vorliegende Arbeit widmet sich der automatischen Erkennung von Named-Entities (NE) wie zum Beispiel Personen, Organisationen und Produkte in natürlichsprachigen Texten und ist somit Grundlage für Anwendungen, welche Zusammenhänge zwischen diesen Entitäten analysieren wollen.

Im Rahmen dieser Arbeit sollen folgende Ziele erreicht werden:

  1. Vermittlung eines Überblicks über aktuelle Methoden und Software zur Named-Entity Recognition (NER), welche auch auf deutschsprachige Dokumente anwendbar sind.
  2. Ermittlung eines standardisierten Testcorpus zur Evaluierung von NER Methoden (siehe Literatur)
  3. Auswahl und Evaluierung von mindestens zwei unterschiedlichen NER-Systemen mit einem Fokus auf
    • Güte der Ergebnisse (Precision, Recall, F1) und
    • Durchsatz (Dokumente/min) des Verfahrens.
  4. Integration von einem NER System in ein Web Service, das Dokumente entgegen nimmt und eine Liste von identifizierten Named Entites zurück liefert.

Vorschlag für die Struktur der Arbeit

  1. Einleitung
    1. Motivation
    2. Beschreibung der Problemstellung
  2. Stand der aktuellen Forschung
  3. Methode (Kriterien für die Softwareauswahl, ausgewählter Evaluierungscorpus, ...)
  4. Evaluierung
  5. Das NER Web Service
  6. Zusammenfassung und Ausblick

Empfohlene Vorkenntnisse

  • HTML Basiskenntnisse
  • Eine der folgenden Programmiersprachen: JavaScript, Java, Python

Literatur

  1. Gerald Weber (2009): "Tagging Technologies", Bachelorarbeit, Institut für Informationswirtschaft , Wirtschaftsuniversität Wien
  2. Faruqui, Manaal and Padó, Sebastian (2010). ''Training and Evaluating a German Named Entity Recognizer with Semantic Generalization'', Proceedings of KONVENS 2010
  3. http://nlpado.de/~sebastian/software/ner_german.shtml
  4. Finkel, Jenny Rose, Grenager, Trond and Manning, Christopher (2005). ''Incorporating non-local information into information extraction systems by Gibbs sampling'', Proceedings of the 43rd Annual Meeting on Association for Computational Linguistics, Association for Computational Linguistics, pages 363--370
  5. http://nlp.stanford.edu/software/CF-NER.shtml
  6. Nadeau, D., Sekine, S. (2007): A survey of named entity recognition and classification. Linguisticae Investigationes.
  7. www.htwchur.ch/?id=web_intelligence