Humboldt-Universität zu Berlin - Mathematisch-Naturwissenschaftliche Fakultät - Wissensmanagement in der Bioinformatik

Information Retrieval

Professor Dr. Ulf Leser

Das Modul "Information Retrieval" behandelt Methoden zur Suche in (sehr grossen) Textsammlungen, insbesondere im Web. Vorgestellt werden Algorithmen und Verfahren zur Textvorverarbeitung, Anfragesprachen, Relevanzmodelle, Idexierung, und spezielle Probleme bei Web-Suchmaschinen. Am Ende der Vorlesung werden auch kleinere Ausfüge in die Computergestützte Sprachverarbeitung unternommen (Language Models, Word Sense Disambiguation). Immer werden sowohl algorithmische Grundlagen als auch konkrete Anwendungen behandelt.

Die Vorlesung wird durch eine Übung begleitet. Diese vertieft die gelernten Methoden durch praktische Umsetzung. In Gruppen werden verschiedene Probleme des Information Retrieval, teilweise unter Benutzung existierende Frameworks, gelöst.

Vorlesungsverschiebungen:

  • Die Vorlesung am 16.4.2018 entfällt. Die erste Vorlesung findet am 23.4.2018 statt.
  • Die Vorlesung vom 25.06.2018 findet am Freitag, den 22.06.2018, von 9-11 Uhr im Humboldt-Kabinett statt.
  • Die Vorlesung vom 09.07.2018 findet am Freitag, den 06.07.2018, von 9-11 Uhr im Humboldt-Kabinett statt.

Voraussetzungen

Voraussetzung für den Besuch sind gute Kenntnisse in "Algorithmen und Datenstrukturen" und der Programmierung mit Java.

Prüfungen und Anrechenbarkeit

Die Prüfung erfolgt in Form einer schriftlichen Klausur. Die Klausur findet am Freitag, den 24.08.2018, statt. Nachfolgend alle Information zur Klausur:


Datum: 24.08.2018
Raum: RUD 25, 3.001
Einlass: 11:15 Uhr
Beginn: 11:30 Uhr

Voraussetzung für die Anmeldung zur Klausur ist das Bestehen der Übung. Informationen zur Studiengängen und Anrechenbarkeit finden Sie in AGNES

Literatur zur Vorlesung


Themen und Termine im Einzelnen

Folien sind hier jeweils nach der Vorlesung als PDF verfügbar. Änderungen möglich. All slides are English, but the course will be held in German.


Weitere Materialien

  • Apache Lucene, an open source full text search engine
  • Snowball is a small string processing language designed for creating stemming algorithms for use in Information Retrieval
  • Lists of stop words
  • Google's n-gram viewer

Ergänzende Literatur