Noisy text analytics for sentiment analysis
Die Valenz (Polarity; Sentiment; Semantic Orientation) eines Dokumentes definiert, ob dieses eine positive oder negative Polarität beziehungsweise Berichterstattung aufweist. Methoden zur automatischen Ermittlung der Valenz von Texten und Nachrichten haben vor allem durch die Weiterentwicklung des World Wide Webs zum Web 2.0 beziehungsweise Social Web stark an Bedeutung gewonnen. Grund hierfür ist, dass gerade benutzergenerierte Inhalte für viele Web Intelligence Anwendungen, wie zum Beispiel Brand Building und Monitoring, Competitive Intelligence und Issues Analysis von hohem wirtschaftlichen Interesse sind.
Aktuelle Web Intelligence Systeme wie der Media Watch on Climate Change (www.ecoresearch.net/climate) analysieren daher zunehmend auch umfangreiche Ströme von Benutzerkommentaren, Tweets und anderen benutzergenerierten Nachrichten und reichern diese mit Metadaten an, welche in weiterer Folge automatisierte Auswertungen und Visualisierungen eröglichen. Hierbei stellt vor allem die Anpassung der Sentiment Analyse an die oft stark unterschiedliche Struktur und Ausdrucksformen (Smiley's, Kürzel, ...) von Benutzernachrichten eine interessante Herausforderung dar.
Ziel dieser Arbeit ist daher die Entwicklung eines Web services, welches basierend auf dem aktuellen Stand der Forschung, das Sentiment von Texten mit starkem Hintergrundrauschen wie zum Beispiel Nachrichten von Micro-Blogging Seiten (Twitter) und OCR Scans ermittelt.
Vorschlag für die Struktur der Arbeit
- Einleitung
- Motivation
- Beschreibung der Problemstellung
- Stand der aktuellen Forschung
- Methode
- Pre-processing
- Sentiment analyse
- Evaluierung
- Zusammenfassung und Ausblick
Empfohlene Vorkenntnisse
- Interesse an Natural Language Processing
- Affinität zu Technologien, welche für das Social Net relevant sind (Twitter, Facebook, ...)
- Ausgezeichnete Programmierkenntnisse in Java oder Python
Literatur
- Davidov, Dmitry, Tsur, Oren and Rappoport, Ari (2010). ''Enhanced sentiment learning using Twitter hashtags and smileys'', Proceedings of the 23rd International Conference on Computational Linguistics: Posters, Association for Computational Linguistics, pages 241--249
- Agarwal, Apoorv, Xie, Boyi, Vovsha, Ilia, Rambow, Owen and Passonneau, Rebecca (2011). ''Sentiment analysis of Twitter data'', Proceedings of the Workshop on Languages in Social Media, ISBN: 978-1-932432-96-1, Association for Computational Linguistics, pages 30--38
- Barbosa, Luciano and Feng, Junlan (2010). ''Robust sentiment detection on Twitter from biased and noisy data'', Proceedings of the 23rd International Conference on Computational Linguistics: Posters, Association for Computational Linguistics, pages 36--44