Vorlesung Informationsintegration
Professor Ulf Leser
Informationsintegration bezeichnet das automatische Verschmelzen heterogener Informationen aus verschiedenen Datenquellen zu einem homogenen Gesamtbild. Das Problem tritt in vielen Anwendungen auf: Unternehmen müssen nach Übernahmen Datenbanken verschmelzen, Software wird von neuen Systemen abgelöst, wozu eine Datenmigration notwendig ist, Mashups im Web verbinden Informationen aus verschiedensten Quellen etc.
Dieser Halbkurs bietet eine Einführung in dieses hochaktuelle Thema. Behandelt werden eine Vielzahl von Verfahren, Algorithmen und Architekturen. THemen sind zum Beispiel verteilte Datenbanken, Multidatenbankanfragesprachen, materialisierte und virtuelle Architekturen, Anfrageübersetzung und -optimierung, Ontologien und das Semantic Web, Duplikaterkennung etc.
Der Halbkurs wird von einer Übung begleitet.
Voraussetzungen
Voraussetzung für den Besuch sind gute Kenntnisse in relationaler Datenbanktechnik und Grundkenntnisse in XML.
Prüfungen und Anrechenbarkeit
Je nach Teilnehmerzahl sind Prüfungen mündlich oder schriftlich. Voraussetzung für die Prüfung ist das Bestehen der Übung. Die Prüfungsform wird in der ersten Semesterwoche bekannt gegeben.
Das Modul ist anrechenbar für
- Diplomstudiengang Informatik, Halbkurs praktische Informatik, 8SP
- Monobachelor Informatik, Wahlpflichtbereich, 8SP
- Master Wirtschaftsinformatik, 8SP
Literatur
- Ulf Leser, Felix Naumann: Informationsintegration, dpunkt.verlag, 2006
- Weitere Literatur und Links
Themen und Folien
(Folien sind hier jeweils vor der Vorlesung als PDF verfügbar. Änderungen möglich).
- Einleitung
- Szenarien der Informationsintegration; Extension und Intension
- Verteilung, Autonomie, Heterogenität und Transparenz
- Grundlegende Architekturen
- Mediator-Wrapper-Systeme
- Data Warehouses
- Multidatenbanksprachen: SchemaSQL
- Übersicht Anfragebearbeitung; Global-as-view
- Anfragekorrespondenzen, Local-as-View und Semantik globaler Anfragen
- Query Containment, Frozen Facts Algorithmus
- Answering Queries using Views, globale Optimierung
- Kostenbasierte Optimierung verteilter Anfragen (Summary)
- Semi-Join Optimierung
- Umgang mit beschränkten Quellen; Binding Pattern
- Schema Matching
- Schemaintegration
- Semantische Integration: Ontologien und Wissensrepräsentationssprachen
- Semantic Web: RDF, RDFS, SparQL, OWL
- Duplikaterkennung
- Datenfusion und Informationsqualität
- Zusammenfassung
Weitere Materialien und Literatur
- Michael Genesereth, "Data Integration - the Relational Logic Approach", synthesis Lectures, Morgan Clay, 2010.
- Conrad, Hasselbring, Koschel, Tritsch: Enterprise Application Integration, Spektrum Akademischer Verlag, 2006
- Busse, Kutsche, Leser, Weber: Federated Information Systems: Concepts, Terminology and Architectures, Technischer Bericht der TU Berlin, 1999
- Özsu, Valduriez: Principles of Distributed Database Systems, Prentice Hall, 1999
- Yu, Meng: Principles of Database Query Optimization, Morgan Kaufmann, 1998
- Conrad: Föderierte Datenbanksysteme, Springer Verlag, 1997