Text Analytics
Professor Ulf Leser
Der Halbkurs "Text Analytics" behandelt Methoden zur computergestützten Analyse von Texten. Themen reichen vom Information Retrieval (Suchmaschinen, Anfragesprachen, Indexierung, PageRank) über die Computerlinguistik (Kollokationen, Sprachmodelle, Tagging, Disambiguierung) bis zum Text Mining (Dokumentklassifikation und -clustering, Informationsextraktion, Plagiaterkennung). Dabei werden sowohl algorithmische Grundlagen, speziell im Bereich des Maschinellen Lernens, als auch Anwendungen behandelt.
Der Halbkurs wird durch ein Praktikum begleitet. Dieses vertieft die im Halbkurs gelernten Methoden durch praktische Umsetzung. In Gruppen werden verschiedene Probleme des Text Mining unter Benutzung existierende Frameworks gelöst.
Voraussetzungen
Voraussetzung für den Besuch sind grundlegende Kenntnisse in Algorithmen und gute Kenntnisse in Java.
Prüfungen
Prüfungen sind mündlich. Die Vorlesung ist als Halbkurs der praktischen Informatik anrechenbar.
Literatur zur Vorlesung
- Manning / Schütze: „Foundations of Statistical Natural Language Processing”, MIT Press, 1999. (At google books)
- Baezo-Yates / Ribeiro-Neto: "Modern Information Retrieval",
Addison-Wesley, 1999.
- Weitere Literatur und Links
Themen und Termine im Einzelnen
(Folien sind hier jeweils vor der Vorlesung als PDF verfügbar. Änderungen möglich. All slides are English, but the course will be held in German).- Introduction and overview
- Foundations of Information Retrieval
- Evaluation of IR Systems;
document normalization
- IR Models I: Boolean, Vector Space, Relevance Feedback
- IR Models II: Probabilistic
Retrieval, Latent Semantic Indexing
(Korrigierte Version, 20.5.2008) - Exact online substring search: Z-Box and Boyer-Moore
- Searching multiple patterns: Keyword Trees and Aho-Corasick
- Indexing terms: Inverted files and
signature files
- Searching the web: Crawling, PageRank and HITS
- Language models
- 19.6.2008. Guest lecture by Prof. Anke Lüdeling: An Introduction to Linguistics
- Part-of-Speech (POS) tagging
- 1.7.2008. Guest lecture Hr. Brüning, Oracle Deutschland: Oracle Text
- Text classification
- Text clustering
- Named Entity Recognition
- Abschluss
- Linguistic collocations and domain-specific terms
- Word Sense Disambiguation
Weitere Materialien
- Text REtrieval Conference: TREC Hompage
- BioCreative: Homepage (Teil 1 und 2)
- Die OpenNLP Seite
- IBM's Unstructured Information Management Architecture: UIMA
- Snowball is a small string processing language designed for creating stemming algorithms for use in Information Retrieval
- Lists of stop words
- The NLTK toolkit - a library for natural language processing in python
- A nice tutorial on SVD and latent semantic indexing by E. Garcia
- POS-Tagset der UPenn Treebank
Ergänzende Literatur
- Feldman, Sanger: "The Text Mining Handbook", Cambridge Press, 2007
- Grossmann, Frieder: "Information Retrieval", Springer, 2004 (in parts at ).
- Online-Lehrbuch Information Retrieval 1 (Grundlagen, Modelle und Anwendungen), Prof. Henrich, Universität Bamberg.