Seminar Angewandtes Text Mining
Philippe Thomas
Das Seminar behandelt verschiedene Anwendungen von Techniken des Text Mining. Der Fokus liegt auf konkreten Lösungsansätzen für aktuelle Probleme und umfasst Themen wie Relationsextraktion, Sentimentanalyse, Question Answering, Topic Models und Open Information Extraction. Angewandt werden die Verfahren auf klassischen (Zeitungs-)texten, wissenschaftlichen Veröffentlichungen, Blogs und Social Media, Twitter, etc.
Voraussetzungen
Das Seminar setzt Grundkenntnisse in Methoden des Maschinellen Lernens voraus (z.B. Modul Text Analytics)..
Schein und Anrechenbarkeit
Voraussetzung für den Schein ist:
- das Halten eines wissenschaftlichen Vortrags,
- das Erstellen einer schriftlichen Ausarbeitung (Seminararbeit)
- die einmalige Übernahme der "Opponentenrolle" (siehe unten)
Anmeldung
Die Teilnehmerzahl ist begrenzt, die Anmeldung erfolgt über Goya.
Termine und Ablauf
Am Mittwoch, den 17.04.2013, findet von 15.00-17.00 Uhr die Einführungsveranstaltung statt, die für alle Teilnehmer verpflichtend ist. Dort werden die Themen erläutert und vergeben.
Das Seminar wird als Blockseminar am Ende des Semesters abgehalten. Jeder Student muss einen ca. 30+10 minütigen Vortrag über das zugewiesene Thema halten. Vorher muss der Betreuer mindestens zweimal getroffen werden, einmal zur Vorbesprechung des Themas und einmal zur Besprechung der Folien. Außerdem wird es einen Termin (TBA) geben, in dem alle Studenten in einer 5-minütigen Flash-Präsentation ihr Thema vorstellen, um Querverbindungen zu erkennen und die rechtzeitige Beschäftigung mit dem Thema sicherzustellen. Schließlich muss zu jedem Thema eine Seminararbeit verfasst werden.
Zu jedem Thema wird ein(e) Studierende(r) vorab als Opponent(in) ausgewählt. Der/Die Opponent(in) liest ebenfalls die zum Thema ausgegebene Literatur und bereitet für den Vortragstermin kritische Fragen zu deren Inhalt vor, die dann im Seminar diskutiert werden. Ziel ist nicht das Aufdecken von Verständnisproblemen beim Vortragenden, sondern die kritische Auseinandersetzung mit dem Thema.
Zusätzlich zu der speziellen Literatur, über die die Vorträge gehalten werden, gibt es für alle Teilnehmer verpflichtende Einführungslektüre.
Alle Pflichttermine in der Übersicht:
- Mittwoch 17.04.2013, 15.15-17.00 Uhr, Rudower Chaussee 26, 1'307: Einführung und Themenvergabe
- Bis spätestens 15.5 erstes Treffen mit Betreuer
- 15.5, 15.00-17.00 Uhr, Rudower Chaussee 26, 1'307: Flash-Präsentationen
- Spätestens 28.6, Individuelle Folienbesprechung mit dem Betreuer
- 3.7, 10.00-17.00 Uhr, Rudower Chaussee 26, 1'307: : Blockseminar I (Vorträge)
TBA, 15.00-17.00 Uhr, Blockseminar II (Vorträge)- 24.7.2013: Abgabe der Seminararbeit
Folien
13.3.2013 Teil1.pdf13.3.2013 Teil2.pdf
Vorlagen
- Schriftliche Ausarbeitung, Latex
- Vortrag, Powerpoint
- Vortrag, Keynote
- Text für die Selbstständigkeitserklärung
- Checkliste für Vortrag und Seminararbeit
Geplante Vortragsreihenfolge
3.7, 11.00 (s. t.!) - 18.00 Uhr, Rudower Chaussee 25, 3.113:Thema | Vortragende/r | Time slot | |
---|---|---|---|
Voynich Manuscript | Valencia | 11:15-12:00 | |
Sarcasm Detection | Sänger | 12:00-12:45 | |
Rapid Pattern Mining | Schulze | 12:45-13:30 | |
Transfer Learning for RE | Matzker | 14:30-15:15 | |
Distant Supervision | Bärhold | 15:15-16:00 | |
Sentence Simplification | Manthey | 16:00-16:45 | |
Open RE | Binder | 16:45-17:30 |
Themengebiete (Einführungslektüre)
Ereignisentdeckung mit Twitter | Vortragende/r | Opponent | Betreuer | |
---|---|---|---|---|
1 | Tetsuro Takahashi, Shuya Abe, and Nobuyuki Igata. 2011. Can twitter be an alternative of real-world sensors?. In Proceedings of the 14th international conference on Human-computer interaction: towards mobile and intelligent interaction environments - Volume Part III (HCII'11), Julie A. Jacko (Ed.), Vol. Part III. Springer-Verlag, Berlin, Heidelberg, 240-249. (aus dem HU-Netz abrufbar) | Lars Döhling | ||
Georeferenzierung in Flickr | ||||
Maarten Clements, Pavel Serdyukov, Arjen P. de Vries, and Marcel J.T. Reinders. 2010. Using flickr geotags to predict user travel behaviour. In Proceeding of the 33rd international ACM SIGIR conference on Research and development in information retrieval (SIGIR '10). ACM, New York, NY, USA, 851-852. Maarten Clements, Pavel Serdyukov, Arjen P. de Vries, and Marcel J. T. Reinders. 2010. Finding Wormholes with Flickr Geotags. In Proceedings of the 32nd European Conference on Information Retrieval (ECIR'2010), Milton Keynes, UK, pp.658-661. |
Lars Döhling | |||
Sarcasm | ||||
3 | Carvalho, P., Sarmento, L., Silva, M. J. and de Oliveira, E. 2009 Clues for detecting irony in user-generated contents: oh...!! it's so easy. In Proceeding of the 1st international CIKM workshop on Topic-sentiment analysis for mass opinion 2009, 53-56.
Reyes, A., Rosso, P. and Buscaldi, D. 2012 From humor recognition to irony detection: The figurative language of social media. Data Knowl. Eng., Elsevier Science Publishers B. V., *2012*, Vol. 74, pp. 1-12 Tsur, O., Davidov, D. and Rappoport, A. 2010 ICWSM – A Great Catchy Name: Semi-Supervised Recognition of Sarcastic Sentences in Online Product Reviews. In Proceeding of AAAI 2010 |
Sänger | Matzker | Philippe Thomas |
Semi Supervised Learning | ||||
Pan, Sinno Jialin, and Qiang Yang. 2010 A Survey on Transfer Learning . Knowledge and Data Engineering, IEEE Transactions on 22.10 (2010): 1345-1359.
David McClosky, Eugene Charniak, and Mark Johnson. 2006 Effective Self-Training for Parsing . Proceedings of the Conference on Human Language Technology and North American chapter of the Association for Computational Linguistics (HLT-NAACL 2006) David McClosky, Eugene Charniak, and Mark Johnson 2010 Reranking and Self-Training for Parser Adaptation. Proceedings of the Association for Computational Linguistics (COLING-ACL 2006) |
Philippe Thomas and Tim Rocktäschel | |||
5 | Pan, Sinno Jialin, and Qiang Yang. 2010 A Survey on Transfer Learning . Knowledge and Data Engineering, IEEE Transactions on 22.10 (2010): 1345-1359.
David McClosky, Eugene Charniak, and Mark Johnson 2010 Automatic Domain Adapatation for Parsing.. Proceedings of the NAACL 2010 |
Philippe Thomas | ||
6 | M. Mintz, S. Bills, R. Snow, and D. Jurafsky. 2009. Distant supervision for relation extraction without labeled data.. In Proceedings of ACL/AFNLP 2009: 1003-1011
R. Hoffmann, C. Zhang, and D. Weld. 2010 Learning 5000 relational extractors. . In Proceedings of ACL’10 |
Bärhold | Schulze | Philippe Thomas |
Named Entity Recognition | ||||
7 | Caporaso JG, Baumgartner WA, Randolph DA, Cohen KB, Hunter L. 2007 Rapid pattern development for concept recognition systems: application to point mutations. . In J Bioinform Comput Biol. 2007 Dec;5(6):1233-59.
|
Schulze | Bärhold | Philippe Thomas |
8 | Roman Klinger, Corinna Kolářik, Juliane Fluck, Martin Hofmann-Apitius, and Christoph M. Friedrich. 2008 Detection of IUPAC and IUPAC-like Chemical Names. Bioinformatics, 24(13):i268-i276, 2008.
R. Leaman and G. Gonzales BANNER: an executable survey of advances in biomedical named entity recognition. In Proceedings of Pac Symp Biocomput. 2008:652-63. |
Philippe Thomas and Tim Rocktäschel | Relationship Extraction | |
17 | Antti Airola*, Sampo Pyysalo, Jari Björne, Tapio Pahikkala, Filip Ginter and Tapio Salakoski 2008 All-paths graph kernel for protein-protein interaction extraction with evaluation of cross-corpus learning. BMC Bioinformtics
|
Philippe Thomas | ||
9 | Ekaterina Buyko, Erik Faessler, Joachim Wermter and Udo Hahn 2011 Syntactic Simplification and Semantic Enrichment - Trimming Dependency Graphs for Event Extraction . In Computational Intelligence, Vol. 27, Issue 4, pages 610 - 644
|
Manthey | Binder | Philippe Thomas | Haibin Liu, Vlado Keselj, and Christian Blouin 2013 Biological Event Extraction using Subgraph Matching. Computational Intelligence, in press.
Haibin Liu, Vlado Keselj, Christian Blouin and Karin Verspoor, 2012 Subgraph Matching-based Literature Mining for Biomedical Relations and Events. n Proceedings of AAAI 2012 Fall Symposium on Information Retrieval and Knowledge Discovery in Biomedical Text, Arlington, VA, USA, November 2012. |
Philippe Thomas |
11 |
Pan, Sinno Jialin, and Qiang Yang. 2010 A Survey on Transfer Learning . Knowledge and Data Engineering, IEEE Transactions on 22.10 (2010): 1345-1359.
Makoto Miwa, Rune Sætre, Yusuke Miyao, Jun'ichi Tsujii 2009 A Rich Feature Vector for Protein-Protein Interaction Extraction from Multiple Corpora. . In Proceedings of EMNLP 2009: 121-130 |
Matzker | Valencia | Philippe Thomas |
12 | Oren Etzioni, Anthony Fader, Janara Christensen, Stephen Soderland and Mausam 2011 Open Information Extraction: the Second Generation. International Joint Conference on Artificial Intelligence, 2011
Mausam, Michael D Schmitz, Robert E. Bart, Stephen Soderland and Oren Etzioni 20122011 Open Language Learning for Information Extraction . Conference on Empirical Methods in Natural Language Processing, 2012. |
Binder | Manthey | Philippe Thomas and Tim Rocktäschel |
Other topics | ||||
13 | Sujith Ravi and Kevin Knight 2011 Bayesian Inference for Zodiac and Other Homophonic Ciphers. In Proceedings of ACL 2011
Sujith Ravi and Kevin Knight 2012 Decoding Running Key Ciphers In Proceedings of ACL 2012 |
Philippe Thomas and Tim Rocktäschel | ||
14 | Sravana Reddy and Kevin Knight 2011 What We Know About The Voynich Manuscript. In Proceedings of ACL 2011
K. Bretonnel Cohen, Helen L. Johnson, Karin Verspoor, Christophe Roeder, and Lawrence E. Hunter (2010)The structural and content aspects of abstracts versus bodies of full text journal articles are different BMC Bioinformatics 11:492. |
Valencia | Sänger | Philippe Thomas |
15 | Alon Halevy, Peter Norvig, and Fernando Pereira, 2009The Unreasonable Effectiveness of Data. In ntelligent Systems, IEEE, 2009
Shane Bergsma, Emily Pitler, and Dekang Lin 2010 Creating Robust Supervised Classifiers via Web-Scale N-Gram Data . In Proceedings of ACL 2010 |
Philippe Thomas | ||
M. Marchetti-Bowick et al. (2012). Learning for Microblogs with
Distant Supervision: Political Forecasting with Twitter. In Proceedings of ACL 2012
|
Philippe Thomas |