Vorlesung Text Analytics
Wintersemester 2012/2013
Professor Ulf Leser
Das Modul "Text Analytics" behandelt Methoden zur computergestützten Analyse von Texten. Themen reichen vom Information Retrieval (Suchmaschinen, Anfragesprachen, Indexierung, PageRank) über statistische Sprachverarbeitung / Computerlinguistik (Kollokationen, Sprachmodelle, Part-of-Speech Tagging, Disambiguierung) bis zum Text Mining (Dokumentklassifikation und -clustering, Informationsextraktion, Plagiaterkennung). Dabei werden sowohl algorithmische Grundlagen als auch konkrete Anwendungen behandelt.
Die Vorlesung wird durch eine Übung begleitet. Diese vertieft die im Halbkurs gelernten Methoden durch praktische Umsetzung. In Gruppen werden verschiedene Probleme des Text Mining, oftmals unter Benutzung existierende Frameworks, gelöst.
Voraussetzungen
Voraussetzung für den Besuch sind gute Kenntnisse in Algorithmen und in Java.
Prüfungen
Prüfungen sind mündlich.
Anrechnung
Der Kurs (Vorlesung + Praktikum) kann angerechnet werden für- Diplominformatik, Halbkurs, 8 SP
- Master Informatik, 10 SP
Literatur zur Vorlesung
- Manning, Schütze: „Foundations of Statistical Natural Language Processing”, MIT Press, 1999. (At google books)
- Schütze, Manning, Raghavan: "Introduction to Information Retrieval", MIT Press, 2009 (Komplette Onlineversion
- Weitere Literatur und Links
Themen und Termine im Einzelnen
Folien sind hier jeweils nach der Vorlesung als PDF verfügbar. Änderungen möglich. All slides are English, but the course will be held in German.
- Overview
- Introduction to Information Retrieval
- Evaluation of IR Systems;
document normalization
- IR Models I: Boolean, Vector Space, Relevance Feedback
- IR Models II: Probabilistic Retrieval, Latent Semantic Indexing
- Exact online substring search: Z-Box, Boyer-Moore
- Indexing terms: Inverted files
- Searching the web: Crawling, PageRank and HITS
- Guest lecture by Prof. Anke Lüdeling: An Introduction to Languages
- Language models
- Part-of-Speech (POS) tagging
- Collocations and domain-specific terinologies
- Guest lecture by Matthias Wendt, Neophonie: Question Answering im Alexandria Projekt
- Text classification
- Text clustering
- Named Entity Recognition
- Word Sense Disambiguation
- Relationship Extraction
- Abschluss
Beiträge von Studierenden
- UIMA
- GATE
- LingPipe
- OpenNLP
- NLTK
- Declarative Information Extraction
- Lucene
- Yago
- WordNet
- Entity Search
- Sentiment Analysis
- Twitter Event Detection
- Geolocation-NER
- OpenCalais
- TREC
- Web-Scale Information Extraction
Weitere Materialien
- Text Retrieval Conference: TREC Hompage
- BioCreative: Homepage (Teil 1 und 2)
- Die OpenNLP Seite
- IBM's Unstructured Information Management Architecture: UIMA
- Snowball is a small string processing language designed for creating stemming algorithms for use in Information Retrieval
- Lists of stop words
- The NLTK toolkit - a library for natural language processing in python
- A nice tutorial on SVD and latent semantic indexing by E. Garcia
- POS-Tagset der UPenn Treebank
- Google's n-gram viewer
Ergänzende Literatur
- Wilcock, G. (2009): "Introduction to Linguistic Annotation and Text Analytics". Innerhalb der HU als PDF beziehbar.
- Baezo-Yates, Ribeiro-Neto: "Modern Information Retrieval",
Addison-Wesley, 1999.
- Feldman, Sanger: "The Text Mining Handbook", Cambridge Press, 2007
- Grossmann, Frieder: "Information Retrieval", Springer, 2004 (in parts at ).
- Online-Lehrbuch Information Retrieval 1 (Grundlagen, Modelle und Anwendungen), Prof. Henrich, Universität Bamberg.