Humboldt-Universität zu Berlin - Mathematisch-Naturwissenschaftliche Fakultät - Wissensmanagement in der Bioinformatik

Vorlesung Informationsintegration

Professor Ulf Leser

 

Das Gebiet "Informationsintegration" umfasst Methoden und Algorithmen zur (automatische) Integration heterogener Informationen aus verschiedenen Datenquellen zu einem homogenen Datenbestand. Das Problem tritt in vielen Kontexten auf: Unternehmen müssen nach Übernahmen Datenbanken verschmelzen, Software wird von neuen Systemen abgelöst, wozu eine Datenmigration notwendig ist, Mashups im Web verbinden Informationen aus verschiedensten Quellen etc. Die Integration umfasst dabei immer mindestens zwei Ebenen - die der Schemata und die der Daten.

Dieser Modul bietet eine Einführung in dieses hochaktuelle Thema. Behandelt werden eine Vielzahl von Verfahren, Algorithmen und Architekturen zur Integration verschiedenster Datenquellen. Themen sind zum Beispiel verteilte Datenbanken, Multidatenbanken, spezielle Anfragesprachen, materialisierte und virtuelle Architekturen, Anfrageübersetzung und -optimierung, Ontologien und das Semantic Web und effiziente Algorithmen zur Duplikaterkennung.

Die Vorlesung wird von einer Übung begleitet.

Erster Vorlesungstermin ist der 19.10.2021. Die erste Vorlesung findet online statt (Zoom Link wird über AGNES verteilt). Alle weiteren Termine, jeweils Montags und Dienstags, finden in Präsenz statt. Bitte beachten Sie die aktuellen Hygienevorschriften der Humboldt-Universität.

Voraussetzungen

Voraussetzung für das Verständnis der Vorlesung sind gute Kenntnisse in relationaler Datenbanktechnik und Grundkenntnisse in XML. Die Übung verlangt gute Kenntnisse in Python.

Prüfungen und Anrechenbarkeit

Je nach Teilnehmerzahl sind Prüfungen mündlich oder schriftlich. Voraussetzung für die Prüfung ist das Bestehen der Übung. Die Prüfungsform wird in der ersten Semesterwoche bekannt gegeben.

Das Modul ist anrechenbar für

  • Master Informatik, 10SP
  • Master Wirtschaftsinformatik, 10SP

Literatur

Themen und Folien

(Folien sind hier jeweils vor der Vorlesung als PDF verfügbar. Änderungen möglich).

Weitere Materialien und Literatur

  • Halevy, A., Rajaraman, A. and Ordille, J. (2006). "Data Integration: The Teenage Years". Int. Conf. on Very Large Databases, Seoul, South Korea.
  • Doan, A., Halevy, A. and Ives, Z. G. (2012). "Principles of Data Integration", Elsevier.
  • Michael Genesereth‌, "Data Integration - the Relational Logic Approach", synthesis Lectures, Morgan Clay, 2010.
  • Özsu, Valduriez: Principles of Distributed Database Systems, Prentice Hall, 1999
  • Yu, Meng: Principles of Database Query Optimization, Morgan Kaufmann, 1998
  • Conrad: Föderierte Datenbanksysteme, Springer Verlag, 1997