Maschinelle Sprachverarbeitung

Wissensmanagement in der Bioinformatik | Maschinelle Sprachverarbeitung

Maschinelle Sprachverarbeitung

Professor Dr. Ulf Leser

Das Modul "Maschinelle Sprachverarbeitung" behandelt Methoden zur computergestützten Analyse von Texten. Nach einer kurzen Zusammenfassung grundlegender Techniken des Information Retrieval (Textrepräsentation, Suchalgorithmen, Indexierung) fokussiert es auf statistische Methoden zur Verarbeitung von Sätzen (Part-of-Speech Tagging, Disambiguierung, Parsing, Informationsextraktion) und von Texten (Dokumentklassifikation und -clustering). Teil der Vorlesung ist auch eine Einführung in grundlegende Methoden des maschinellen Lernens.

Erste Vorlesung ist am Mittwoch, den 17.10.2018.

Die Vorlesung wird durch eine Übung begleitet. Diese vertieft die gelernten Methoden durch praktische Umsetzung. In Gruppen werden verschiedene Probleme der maschinellen Sprachverarbeitung, teilweise unter Benutzung existierende Frameworks, gelöst.

Voraussetzungen

Voraussetzung für den Besuch sind gute Kenntnisse in "Algorithmen und Datenstrukturen" und in der Programmierung mit Java. Kenntnisse im Information Retrieval sind ebenfalls von Vorteil.

Prüfungen

Voraussetzung für die Zulassung zur Prüfung ist das Bestehen der Übung. Die Prüfung zur Vorlesung findet am 25.02.2019 im Raum 3.001 (Rudower Chaussee 25) statt. Einlass ist ab 11 Uhr und die Klausur beginnt ab 11:30 Uhr. Die Prüfung erfolgt schriftlich.

Anrechnung

Das Modul (Vorlesung + Übung) kann angerechnet werden für

Master Informatik, 5 SP
Master Wirtschaftsinformatik, 5 SP

Literatur zur Vorlesung

Manning, Schütze: "Foundations of Statistical Natural Language Processing", MIT Press, 1999

Themen und Termine im Einzelnen

Folien sind hier jeweils nach der Vorlesung als PDF verfügbar. Änderungen möglich. All slides are English, but the course will be held in German.

Overview
Introduction to Information Retrieval
Retrieval Models and Inverted Files
Part-of-Speech Tagging with HMMs
Syntax-Parsing with PCFGs
Text Classification: kNN, Naive Bayes, Maximum entropy, SVM
Text Clustering: Hierarchical, k-Means, k-Medoid
Named Entity Recognition (Update: 18.1.2016)
Relationship Extraction
Neural Networks and Word Embeddings

Weitere Materialien

Apache Lucene, an open source full text search engine
Lists of stop words

Ergänzende Literatur

Feldmann, Sanger: "The Text Mining Handbook", Cambridge University Press, 1006
Heyer, Quasthoff, Wittig: "Text Mining: Wissensrohstoff Text", W3L-Verlag, 2006