Maschinelle Sprachverarbeitung
Das Modul "Maschinelle Sprachverarbeitung" behandelt Methoden zur computergestützten Analyse von Texten. Nach einer kurzen Zusammenfassung grundlegender Techniken des Information Retrieval (Textrepräsentation, Suchalgorithmen, Indexierung) fokussiert es auf statistische Methoden zur Verarbeitung von Sätzen (Part-of-Speech Tagging, Disambiguierung, Parsing, Informationsextraktion) und von Texten (Dokumentklassifikation und -clustering). Teil der Vorlesung ist auch eine Einführung in grundlegende Methoden des maschinellen Lernens.
Erste Vorlesung ist am Donnerstag, den 19.10.17.
Die Vorlesung wird durch eine Übung begleitet. Diese vertieft die gelernten Methoden durch praktische Umsetzung. In Gruppen werden verschiedene Probleme der maschinellen Sprachverarbeitung, teilweise unter Benutzung existierende Frameworks, gelöst.
Voraussetzungen
Voraussetzung für den Besuch sind gute Kenntnisse in "Algorithmen und Datenstrukturen" und in der Programmierung mit Java. Kenntnisse im Information Retrieval und im Maschinellen Lernen sind von Vorteil.
Prüfungen
Voraussetzung für die Zulassung zur Prüfung ist das Bestehen der Übung. Die Prüfung zur Vorlesung findet am 27.02.2018 im Raum 3.001 (Rudower Chaussee 25) statt. Einlass ist ab 11 Uhr und die Klausur beginnt ab 11:15 Uhr. Die Prüfung erfolgt schriftlich.
Das Modul (Vorlesung + Übung) kann angerechnet werden für- Master Informatik, 5 SP
- Master Wirtschaftsinformatik, 5 SP
Literatur zur Vorlesung
- Manning, Schütze: "Foundations of Statistical Natural Language Processing", MIT Press, 1999
Themen und Termine im Einzelnen
Folien sind hier jeweils nach der Vorlesung als PDF verfügbar. Änderungen möglich. All slides are English, but the course will be held in German.
- Overview
- Introduction to Information Retrieval
- Retrieval Models and Inverted Files
- Language Models (and IR)
- Part-of-Speech Tagging with HMMs
- Syntax-Parsing with PCFGs
- Text Classification: kNN, Naive Bayes, Maximum entropy, SVM
- Text Clustering: Hierarchical, k-Means, k-Medoid
- Named Entity Recognition
- Relationship Extraction
- Neural networks and word embeddings
Weitere Materialien
- Apache Lucene, an open source full text search engine
- Lists of stop words
Ergänzende Literatur
- Feldmann, Sanger: "The Text Mining Handbook", Cambridge University Press, 1006
- Heyer, Quasthoff, Wittig: "Text Mining: Wissensrohstoff Text", W3L-Verlag, 2006