Verarbeitung von natürlichsprachigen Texten aus Sozialen Netzen

1 minute read

Der Anteil von benutzergenerierten Inhalten hat sich mit der Weiterentwicklung des World Wide Webs zum Web 2.0 beziehungsweise Social Web stark erhöht. Zusätzlich sind gerade diese Inhalte für viele Web Intelligence Anwendungen, wie zum Beispiel Brand Building und Monitoring, Competitive Intelligence und Issues Analysis von hohem wirtschaftlichen Interesse.

Aktuelle Web Intelligence Systeme wie der Media Watch on Climate Change (www.ecoresearch.net/climate) analysieren daher zunehmend auch umfangreiche Ströme von benutzergenerierten Inhalten und reichern diese mit Metadaten an, welche in weiterer Folge automatisierte Auswertungen und Visualisierungen ermöglichen. Dabei stellt jedoch die oft geringe Datenqualität von benutzergenerierten Daten - im Speziellen von Benutzerkommentaren und Tweets - Komponenten zur automatischen Verarbeitung von natürlichsprachigen Informationen vor grosse Herausforderungen.

Ziel dieser Arbeit ist daher die Entwicklung eines Web Services, das basierend auf dem aktuellen Stand der Forschung, Nachrichten von Micro-Blogging Seiten (Twitter) und Börsentickern für die weitere Verarbeitung durch nachgeschaltete NLP Techniken aufbereitet. Dabei sollen unter anderem Techniken wie zum Beispiel kontextabhängige Rechtschreibkorrektur, Satzerkennung, Extraktion von Metadaten (Tags, ...) zum Einsatz kommen.

Vorschlag für die Struktur der Arbeit

  1. Einleitung
    1. Motivation
    2. Beschreibung der Problemstellung
  2. Stand der aktuellen Forschung
  3. Methode (Verwendete Techniken, Umsetzung, ...)
  4. Evaluierung
  5. Zusammenfassung und Ausblick

Empfohlene Vorkenntnisse

  • Affinität zu Technologien, welche für das Social Net relevant sind (Twitter, Facebook, ...)
  • Eine der folgenden Programmiersprachen: Java, Python

Literatur

  1. Dey, Lipika and Haque, Sk. Mirajul (2009). ''Opinion mining from noisy text data'', Int. J. Doc. Anal. Recognit., Springer-Verlag, pages 205--226
  2. www.htwchur.ch/?id=web_intelligence