Information Retrieval
Professor Dr. Ulf Leser
Das Modul "Information Retrieval" behandelt Methoden zur Suche in (sehr grossen) Textsammlungen, insbesondere im Web. Vorgestellt werden Algorithmen und Verfahren zur Textvorverarbeitung, Anfragesprachen, Relevanzmodelle, Idexierung, und spezielle Probleme bei Web-Suchmaschinen. Am Ende der Vorlesung werden auch kleinere Ausfüge in die Computergestützte Sprachverarbeitung unternommen (Language Models, Word Sense Disambiguation). Immer werden sowohl algorithmische Grundlagen als auch konkrete Anwendungen behandelt.
Die Vorlesung wird durch eine Übung begleitet. Diese vertieft die gelernten Methoden durch praktische Umsetzung. In Gruppen werden verschiedene Probleme des Information Retrieval, teilweise unter Benutzung existierende Frameworks, gelöst.
Voraussetzungen
Voraussetzung für den Besuch sind gute Kenntnisse in "Algorithmen und Datenstrukturen" und der Programmierung mit Java.
Prüfungen und Anrechenbarkeit
Die Prüfung erfolgt in Form einer schriftlichen Klausur - in Präsenz oder online. Der Termin steht noch nicht fest. Voraussetzung für die Anmeldung zur Klausur ist das Bestehen der Übung.
Literatur zur Vorlesung
- Schütze, Manning, Raghavan: "Introduction to Information Retrieval", MIT Press, 2009 (Komplette Onlineversion
- Weitere Literatur und Links
Themen und Termine im Einzelnen
Folien sind hier jeweils nach der Vorlesung als PDF verfügbar. Änderungen möglich. All slides are English, but the course will be held in German.
Die Vorlesungen werden live via ZOOM gehalten und nicht aufgenommen. Nur zu ausgewählten Themen (siehe Tabelle) sind eigene Videos geplant.
Topic and link to slides | Recorded videos |
---|---|
Overview | None |
Introduction to Information Retrieval | None |
Evaluation of IR Systems | Evaluation Teil 1, Teil 1 |
Document normalization | None |
IR Models I: Boolean and Vector Space Model (with Relevance Feedback) | Vector Space Model |
IR Models II: Probabilistic Relevance Ranking | None |
IR Models III: Latent Semantic Indexing, Word Embeddings | LSI |
Exact substring search/a>: Boyer-Moore Algorithmus | None |
Indexing terms: Inverted files | None |
Searching the web: Crawling, PageRank and HITS | Prestige and PageRank |
Language models | None |
Entfällt: Word Sense Disambiguation | None |
Entfällt: Collocation Analysis | None |
Weitere Materialien
- Apache Lucene, an open source full text search engine
- Snowball is a small string processing language designed for creating stemming algorithms for use in Information Retrieval
- Lists of stop words
- Google's n-gram viewer
Ergänzende Literatur
- Baezo-Yates, Ribeiro-Neto: "Modern Information Retrieval", Addison-Wesley, 1999.
- Grossmann, Frieder: "Information Retrieval", Springer, 2004 (in parts at ).
- Online-Lehrbuch Information Retrieval 1 (Grundlagen, Modelle und Anwendungen), Prof. Henrich, Universität Bamberg.