Automatische Ermittlung der Relevanz von Nachrichten

1 minute read

Aktuelle Web Intelligence Systeme wie der Media Watch on Climate Change (www.ecoresearch.net/climate) analysieren umfangreiche Datenbest#nde und reichern diese mit Metadaten wie zum Beispiel Ort der Berichterstattung, Sentiment (positiv/negativ), Schlagwörter, etc. an, welche in weiterer Folge automatisierte Auswertungen und Visualisierungen ermöglichen. Somit erlauben Web Intelligence Systeme die Identifikation und in Folge auch die Extraktion von entscheidungsrelevanten Daten aus Web Ressourcen, welche Entscheidungsträgern in weiterer Folge eine Optimierung ihrer Strategien ermöglichen.

Bevor Dokumente diesen Prozess durchlaufen, muss jedoch sichergestellt werden, dass diese für die gewählte Domäne auch relevant sind, um (i) unnötigen Rechenaufwand und (ii) eine Verfälschung von aggregierten Kennzahlen zu vermeiden. Aus diesem Grund nimmt man in der Praxis eine Vorselektion der Dokumente vor, welche relevante Dokumente kennzeichnet und irrelevante Daten verwirft. Dieser als "Domain specificity" bezeichnete Filterschritt wird meist über vordefinierte Regelwerke oder maschinelle Klassifikationsverfahren realisiert. Regelwerke haben jedoch den Nachteil, dass sich diese an Änderungen der Domäne und neue Trends nicht automatisch anpassen - umgekehrt ist für maschinelle Verfahren ein meist (langwieriger) Lernprozess notwendig.

Basierend auf dieser Problematik sollen im Rahmen dieser Arbeit folgende Ziele erreicht werden:

  1. Vermittlung eines Überblicks über aktuelle Methoden und Software zur automatischen Klassifikation und Relevanzbestimmung von Dokumenten anhand von Regeln
  2. Erstellung eines Web Services, welches die Relevanz von Dokumenten anhand (i) einer Domänendefinition und (ii) hinzugelernter Regeln ermittelt:
    • Programmierung einer Komponente zur regelbasierten Ermittlung der Relevanz von Dokumenten
    • Auswahl eines Maschinenlernverfahrens für die Problemstellung (SVM, Naive Bayes, ...)
    • Kombination der beiden Techniken:
      • Start - Training des Maschinenlernverfahrens anhand der Ergebnisse des regelbasierten Klassifiers (bootstrapping)
      • Übernahme der Klassifikation durch das Maschinenlernverfahren
    • Integration in ein Web Service
  3. Evaluierung des entwickelten Verfahrens (semi-supervised learning) und Vergleich mit einer bestehenden Komponente zur Bestimmung der Domain-specificity.
    • Güte der Ergebnisse (Precision, Recall, F1; Vergleich von Dokumenten, die unterschiedlich klassifiziert wurden) und
    • Durchsatz (Dokumente/min) des Verfahrens.

Vorschlag für die Struktur der Arbeit

  1. Einleitung
    1. Motivation
    2. Beschreibung der Problemstellung
  2. Stand der aktuellen Forschung
  3. Methode und Implementierung
  4. Evaluierung
  5. Zusammenfassung und Ausblick

Empfohlene Vorkenntnisse

  • Eine der folgenden Programmiersprachen: JavaScript, Java, Python
  • Vorkenntnisse über die Funktion von Regulären Ausdrücken sind nützlich (aber nicht notwendig)

Literatur

  1. Bird, Steven, Klein, Ewan and Loper, Edward (2009). ''Natural Language Processing with Python - Analyzing Text with the Natural Language Toolkit'', O'Reilly Media
  2. http://docs.python.org/library/re.html - Reguläre Ausdrücke in Python
  3. www.htwchur.ch/?id=web_intelligence