Hauptseminar Sentimentanalyse

Sommersemester 2011
Wiltrud Kessler
Di 09:30-11:00 in M12.11
[LSF]

Aktuelles

[26.7.11] Das Semester und damit das Seminar ist zu Ende. Vielen Dank für euer Engagement!
[19.7.11] Wir haben noch einen Termin zu einem sehr spannenden Thema, der automatischen Erkennung von Sarkasmus und Ironie [TDR10]. Dieses Paper hat es sogar in die Nachrichten geschafft: CNET, Time Magazine, Discovery News, ...
[7.7.11] Für den nächsten Termin wurde das falsche Paper angegeben, bitte lest [WZHW09]. Das ursprünglich angegebene Paper enthält zwar eine gute Erklärung zu Tree Kernels, aber keinen Bezug zu Sentimentanalyse.
[31.5.11] Am 21.6.11 wird es zwei Vorträge geben, das Seminar wird dann verlängert von 9:30 Uhr bis 11:30 Uhr (bitte pünktlich kommen, damit für jeden Vortrag eine Stunde Zeit ist).
[17.5.11] Zur Frage von unterschiedlichen POS und dem Verfahren in [AB06]: In [AB06b] werden einige Modifikationen kurz beschrieben, z.B. werden seed words aller POS verwendet, Negation in Glossen wird berücksichtigt und das Resultat sind Wörter aller POS. Das Verfahren wird auch auf die Kategorie "increase/decrease" angewendet, d.h Wörter, die Meinung verstärken oder abschwächen.
Zur Verwendung der Fuzzy klassifizierten Wörter in einem Klassifikationssystem [AB08]: "The sentiment determination at the sentence and text level was then done by summing up the scores of all identified positive unigrams (NOS>0) and all negative unigrams (NOS<0)"
Referenzen:
[AB06b] Alina Andreevskaia and Sabine Bergler. 2006. Semantic Tag Extraction Using WordNet Glosses. Proceedings of the Fifth International Conference on Language Resources and Evaluation, LREC 2006. Genoa, Italy.
[AB08] Alina Andreevskaia and Sabine Bergler. 2008. When Specialists and Generalists Work Together: Overcoming Domain Dependence in Sentiment Tagging. In Proceedings of The 46th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies (ACL08:HLT), Columbus, Ohio, June 2008.
[26.4.11] Der neue Termin für das Hauptseminar ist Dienstag 9:30 Uhr, M12.11, der Freitagstermin ist gestrichen.
[13.4.11] Wegen Terminkollisionen wird das Hauptseminar möglicherweise verschoben. Der neue Termin wird in der ersten Veranstaltung am 26.4. festgelegt. Interessenten, die zu dieser Veranstaltung nicht kommen können, können gerne eine Mail schreiben mit den Zeiten, die für eine Verlegung in Betracht kämen, dann können wir das berücksichtigen.

Termine

Tag	Themen	Vortragender	Unterlagen*
Dienstag 26.4.	Einführung in Sentimentanalyse	Wiltrud Kessler	Folien
Dienstag 3.5.	Einführung in Sentimentanalyse Verteilung der Seminarthemen	Wiltrud Kessler	Folien
Dienstag 10.5.	Vasileios Hatzivassiloglou and Kathleen McKeown: "Predicting the semantic orientation of adjectives"	Wiltrud Kessler	[HM97]
Dienstag 17.5.	Alina Andreevskaia and Sabine Bergler: "Mining WordNet for Fuzzy Sentiment: Sentiment Tag Extraction from WordNet Glosses"	Ina	[AB06]
Dienstag 24.5.	Peter D. Turney and Michael L. Littman: "Measuring praise and criticism: Inference of semantic orientation from association" - Teil 1 (Pointwise Mutual Information)	Stefan	[TL03]
Dienstag 31.5.	Peter D. Turney and Michael L. Littman: "Measuring praise and criticism: Inference of semantic orientation from association" - Teil 2 (Latent Semantic Analysis)	Olga	[TL03]
Dienstag 7.6.	Alena Neviarouskaya, Helmut Prendinger, and Mitsuru Ishizuka: "Recognition of affect, judgment, and appreciation in text"	Max	[NPI10]
Dienstag 14.6.	Fällt aus (Pfingsferien)
Dienstag 21.6.	J Yi, T Nasukawa, R C Bunescu, and W Niblack: "Sentiment Analyzer: Extracting Sentiments about a Given Topic using Natural Language Processing Techniques"	Natalie	[YNBN03]
	Hiroshi Kanayama, Tetsuya Nasukawa, and Hideo Watanabe: "Deeper sentiment analysis using machine translation technology"	Vitaliia	[KNW04]
Dienstag 28.6.	Fällt aus
Dienstag 5.7.	Kushal Dave, Steve Lawrence, and David M Pennock: "Mining the Peanut Gallery: Opinion Extraction and Semantic Classification of Product Reviews"	Alena	[DLP03]
Dienstag 12.7.	Fällt aus
Dienstag 19.7.	Support Vector Machines & ~~Aron Culotta and Jeffrey Sorensen: "Dependency tree kernels for relation extraction"~~ Yuanbin Wu, Qi Zhang, Xuanjing Huang, and Lide Wu: "Phrase dependency parsing for opinion mining."	Wiltrud Kessler	Folien ~~[CS04]~~ [WZHW09]
Dienstag 26.7.	Oren Tsur, Dmitry Davidov, and Ari Rappoport: "ICWSM - A Great Catchy Name : Semi-Supervised Recognition of Sarcastic Sentences in Online Product Reviews." ICWSM 2010.	Kirill	[TDR10]

* Möglicherweise sind einige Paper nur über eine Subscription der Unibibliothek erreichbar, d.h. nur aus dem Uninetz.

Themen

In diesem Seminar werden verschiedene Methoden zur automatischen Analyse von Meinungen in Texten vorgestellt. Sentimentanalyse ist ein Thema, das sich in den letzten 10 Jahren immer mehr an Bedeutung gewonnen hat und eine Menge an Publikationen hervorgebracht hat. In diesem Seminar sollen einige unterschiedliche Ansätze zur Klassifikation von Meinungen auf verschiedenen Ebenen diskutiert werden.
Vorkenntnisse zu Methoden des maschinellen Lernens sind hilfreich, aber nicht zwingend notwendig.

1. Klassifikation von Wörtern mit Hilfe von WordNet

Diese Strategie stützt sich auf WordNet und die von WordNet bereitgestellten Relationen zwischen Wörtern. Ausgehend von einer kleinen Anzahl Wörter mit bekannter Polarität werden die WordNet Relationen genutzt um diese Polarität durch den WordNet Konzeptgraphen weiter zu propagieren.
Literatur: [HL04], [ESM06], [AB06], [HR10]

2. Klassifikation von Wörtern mit Hilfe von Pointwise Mutual Information

Dieser Ansatz basiert auf linguistischen Merkmalen der Verteilung von Wörtern im Text. Ein Verfahren ist es, die Polarität von Wörter zu bestimmen indem man die Stärke der Assoziation mit Wörtern bekannter Polarität bestimmt. Stärke der Assoziation ist hier definiert als Pointwise Mutual Information (PMI). PMI ist ein Korrelationsmaß für zwei Wörter, PMI ist positiv, wenn die Wörter oft gemeinsam auftreten und negativ, wenn das Vorkommen des einen Wortes wahrscheinlich macht, dass das andere Wort nicht auftritt. Sind beide Wörter statistisch unabhängig ist ihr PMI 0.
Literatur: [HM97], [TL03], [GA05], [YH03]

3. Klassifikation von Wörtern mit Hilfe von Latent Semantic Analysis

Dieser Ansatz basiert auf linguistischen Merkmalen der Verteilung von Wörtern im Text. Basierend auf der Annahme, dass das Vorkommen von Sentiment Wörter mit gleicher Polarität auf Dokumentebene korreliert, kann die Polarität von unbekannten Wörtern durch Latent Semantic Analysis (LSA) bestimmt werden. LSA bildet ein Dokument auf einen "Semantischen Raum" ab, der durch die Eigenvektoren der Dokumente des Korpus aufgespannt wird. Die Ähnlichkeit von zwei Wörtern kann nun durch den Cosinusabstand ihrer Repräsentation durch die Eigenvektoren bestimmt werden.
Literatur: [HM97], [TL03]

4. Klassifikation von Phrasen/Sätzen mit Hilfe von Kontext-Regeln

Klassifikation mit Hilfe von Regeln, die linguistisches Wissen über Kontext abbilden. Kontext, der für die korrekte Klassifikation von Meinungen wichtig ist, ist z.B. Negation (good vs. not good) oder Intensifier (good vs. very good).
Literatur: [YNBN03], [PZ04], [WWH05], [NPI10]

5. Klassifikation von Sätzen durch Maschinelle Übersetzung

Sentiment Analyse kann als die Übersetzung von Textdokumenten in Sentiment Einheiten betrachtet werden. Dafür kann transferbasierte Maschinelle Übersetzung eingesetzt werden. Statt dem bilingualen Lexikon wird ein Lexikon verwendet, das die Polaritäten der Wörter enthält, gemeinsam mit Transferpatterns basierend auf Syntaxinformation.
Literatur: [KNW04]

6. Features für die Klassifikation von Dokumenten

Zur Klassifikation von Dokumenten können Methoden des Information Retrieval eingesetzt werden um Features aus dem Text zu extrahieren und zu gewichten. Es gibt eine große Zahl an möglichen Features, z.B. n-gramme, Ersetzungen, WordNet Ähnlichkeit, Part-of-Speech, Parsefeatures, Negation.
Literatur: [DLP03]

7. Klassifikation von Dokumenten durch Support Vector Machines und Syntaxinformation

Support Vector Machines (SVMs) sind eine überwachte Lernmethode, die versucht die Trainingbeispiele im Datenraum so durch eine "Linie" zu separieren, dass die Grenze zwischen den Klassen möglichst breit bleibt. Bei einem nicht linear separierbaren Problem, können Kernelfunktionen verwendet werden, um den Original-Vektorraum in einen höherdimensionalen Raum zu überführen, in dem das Problem linear separierbar ist. Kernelfunktionen berechnen die Ähnlichkeit zwischen zwei Trainingsbeispielen. Sie können auch auf komplexen Strukturen, wie z.B. Parsbäumen operieren (TreeKernels).
Literatur: [CS04], [MTO05], [WZHW09]

Ablauf

Zur Einführung in das Thema werden drei Termine stattfinden (26.4., 29.4., 3.5.), in denen Grundlagen zur Sentimentanalyse besprochen werden. Darauf folgend werden die Themen am 3.5. verteilt.
Um einen Schein zu erlangen muss zum gewählten Thema eine Ausarbeitung angefertigt werden und das Thema in einem Vortrag von ca. 45 Minuten vorgestellt werden.
Die Ausarbeitungen müssen dem zweispaltigen IEEE-Format für Konferenzbeiträge genügen und einen Umfang von 10-12 Seiten haben. Eine Vorlage wird zur Verfügung gestellt.
Die Abgabe einer vorläufigen Ausarbeitung ist eine Woche vor dem Vortrag notwendig, die endgültige Ausarbeitung muss eine Woche nach dem Vortrag vorliegen, sowohl in ausgedruckter als auch elektronischer Form (Orginaldokument und PDF).
Die Vorträge werden nach Absprache. Alternativ kann auch ein Vortrag von 10-30 Minuten gehalten werden, der kurz die Grundideen eines Themas erklärt. Der Vortrag kann auf ein Paper beschränkt werden, es muss keine Ausarbeitung geschrieben werden. Fragen werden dann in der Diskussion geklärt. Ein Schein kann so nicht erlangt werden.

Literatur

[AB06] Alina Andreevskaia and Sabine Bergler. Mining WordNet for Fuzzy Sen timent : Sentiment Tag Extraction from WordNet Glosses. In Proceedings of the 11th Conference of the European Chapter of the Association for the Computational Linguistics, EACL-2006, pages 209-216, 2006.
[CS04] Aron Culotta and Jeffrey Sorensen. Dependency tree kernels for relation extraction. In Proceedings of the 42nd Annual Meeting on Association for Computational Linguistics, ACL '04, Stroudsburg, PA, USA, 2004. Associ ation for Computational Linguistics.
[DLP03] Kushal Dave, Steve Lawrence, and David M Pennock. Mining the Peanut Gallery : Opinion Extraction and Semantic Classification of Product Reviews. In Proceedings of the 12th international conference on World Wide Web, 2003.
[ESM06] Andrea Esuli, Fabrizio Sebastiani, and Via Giuseppe Moruzzi. SENTIWORDNET : A Publicly Available Lexical Resource for Opinion Mining. In Proceedings of the 5th Conference on Language Resources and Evaluation (LREC'06), pages 417-422, 2006.
[GA05] Michael Gamon and Anthony Aue. Automatic identification of sentiment vocabulary: Exploiting low association with known sentiment terms. In Proceedings of the ACL Workshop on Feature Engineering for Machine Learning in Natural Language Processing, 2005.
[HL04] Minqing Hu and Bing Liu. Mining and summarizing customer reviews. In Proceedings of the ACM SIGKDD Conference on Knowledge Discovery and Data Mining (KDD), pages 168-177, 2004.
[HM97] Vasileios Hatzivassiloglou and Kathleen McKeown. Predicting the semantic orientation of adjectives. In Proceedings of the Joint ACL/EACL Conference, pages 174-181, 1997.
[HR10] Ahmed Hassan and Dragomir Radev. Identifying text polarity using random walks. In Proceedings of the 48th Annual Meeting of the Association for Computational Linguistics, ACL '10, pages 395-403, Stroudsburg, PA, USA, 2010. Association for Computational Linguistics.
[KNW04] Hiroshi Kanayama, Tetsuya Nasukawa, and Hideo Watanabe. Deeper sentiment analysis using machine translation technology. In Proceedings of the 20th international conference on Computational Linguistics - COLING '04, page 494, Morristown, NJ, USA, 2004. Association for Computational Linguistics.
[MTO05] Shotaro Matsumoto, Hiroya Takamura, and Manabu Okumura. Sentiment classification using word sub-sequences and dependency sub-trees. In Tu Ho, David Cheung, and Huan Liu, editors, Advances in Knowledge Discovery and Data Mining, volume 3518 of Lecture Notes in Computer Science, pages 21-32. Springer Berlin / Heidelberg, 2005.
[NPI10] Alena Neviarouskaya, Helmut Prendinger, and Mitsuru Ishizuka. Recognition of affect, judgment, and appreciation in text. In Proceedings of the 23rd International Conference on Computational Linguistics, COLING '10, pages 806-814, Stroudsburg, PA, USA, 2010. Association for Computational Linguistics.
[PZ04] Livia Polanyi and Annie Zaenen. Contextual lexical valence shifters. In Proceedings of the AAAI Spring Symposium on Exploring Attitude and Affect in Text: Theories and Applications, 2004.
[TL03] Peter D. Turney and Michael L. Littman. Measuring praise and criticism: Inference of semantic orientation from association. ACM Transactions on Information Systems (TOIS), 21(4):315-346, 2003.
[WWH05] Theresa Wilson, Janyce Wiebe, and Paul Hoffmann. Recognizing contextual polarity in phrase-level sentiment analysis. In Proceedings of the Human Language Technology Conference and the Conference on Empirical Methods in Natural Language Processing (HLT/EMNLP), pages 347-354, 2005.
[WZHW09] Yuanbin Wu, Qi Zhang, Xuanjing Huang, and Lide Wu. Phrase dependency parsing for opinion mining. In Proceedings of the 2009 Conference on Empirical Methods in Natural Language Processing: EMNLP '09, pages 1533-1541, Stroudsburg, PA, USA, 2009. Association for Computational Linguistics.
[YH03] Hong Yu and Vasileios Hatzivassiloglou. Towards Answering Opinion Questions: Separating Facts from Opinions and Identifying the Polarity of Opinion Sentences. In Proceedings of the Conference on Empirical Methods in Natural Language Processing (EMNLP), 2003.
[YNBN03] J Yi, T Nasukawa, R C Bunescu, and W Niblack. Sentiment Analyzer: Extracting Sentiments about a Given Topic using Natural Language Processing Techniques. In Third IEEE International Conference on Data Mining ICDM, pages 427-434, 2003.