Vorlesung Informationsintegration
Dr. Sebastian Wandelt
Informationsintegration bezeichnet das automatische Verschmelzen heterogener Informationen aus verschiedenen Datenquellen zu einem homogenen Gesamtbild. Das Problem tritt in vielen Anwendungen auf: Unternehmen müssen nach Übernahmen Datenbanken verschmelzen, Software wird von neuen Systemen abgelöst, wozu eine Datenmigration notwendig ist, Mashups im Web verbinden Informationen aus verschiedensten Quellen etc.
Dieser Halbkurs bietet eine Einführung in dieses hochaktuelle Thema. Behandelt werden eine Vielzahl von Verfahren, Algorithmen und Architekturen. Themen sind zum Beispiel verteilte Datenbanken, Multidatenbankanfragesprachen, materialisierte und virtuelle Architekturen, Anfrageübersetzung und -optimierung, Ontologien und das Semantic Web, Duplikaterkennung etc.
Der Halbkurs wird von einer Übung begleitet.
Voraussetzungen
Voraussetzung für den Besuch sind gute Kenntnisse in relationaler Datenbanktechnik und Grundkenntnisse in XML.
Prüfungen und Anrechenbarkeit
Je nach Teilnehmerzahl sind Prüfungen mündlich oder schriftlich. Voraussetzung für die Prüfung ist das Bestehen der Übung. Die Prüfungsform wird in der ersten Semesterwoche bekannt gegeben.
Das Modul ist anrechenbar für
- Diplomstudiengang Informatik, Halbkurs praktische Informatik, 8SP
- Monobachelor Informatik, Wahlpflichtbereich, 8SP
- Master Wirtschaftsinformatik, 10SP
Literatur
- Ulf Leser, Felix Naumann: Informationsintegration, dpunkt.verlag, 2006
- Weitere Literatur und Links
Themen und Folien
(Folien sind hier jeweils vor der Vorlesung als PDF verfügbar. Änderungen möglich).
- Einleitung
- Szenarien
- Verteilung, Autonomie und Heterogenität
- Architekturen, Folien für Join mit Editabstand
- Mediatorsysteme
- Data Warehouses
- Schema SQL
- GaV
- LaV
- Query containment
- AQUV
- Kostenbasierte Optimierung
- Semijoins
- Binding pattern
- Schema Matching
- Duplikaterkennung
- Schemaintegration
- Semantische Integration
- ILIADS (die Originalfolien findet ihr hier)
- Datenfusion
- Aktuelle Themen (die Originalfolien findet ihr hier)
- Abschluss
Übungsaufgaben
- 1. Übungsaufgabe, Eingabedatei, Wettbewerbsauswertung
- 2. Übungsaufgabe
- 3. Übungsaufgabe (Deadline: 30.05.2014, 23:59 Uhr), Beispielausgabe für die Samples auf delphi, Externer Link auf die Samples, Wettbewerbsauswertung
- 4. Übungsaufgabe (Deadline: 15.06.2014, 13:00 Uhr, diesmal ein Sonntag!), Eingabe mit Lösungen, Eingabe für den Wettbewerb, Schwierige Extra-Eingabe (nicht wettbewerbsrelevant)
- 5. Übungsaufgabe, Material: Basisrelation und Metadaten und Dateien der einzelnen Gruppen (aktuelle Version, 03.Juli, 14:57 Uhr)
Stand des Wettbewerbs
Gruppen: | abc | ck | cm | ConCarne | GR1 | horst | MaCa | MK | RBG | skynet | xyz | Zauberfee |
---|---|---|---|---|---|---|---|---|---|---|---|---|
Übung 1 - Korrektheit | 5 | 1 | 5 | |||||||||
Übung 1 - Geschwindigkeit | 3 | 1 | 5 | |||||||||
Übung 2 - Was bin ich | 1 | 3 | 5 | 1 | 1 | |||||||
Übung 3 - Differential Snapshot | 3 | 1 | 1 | 3 | 5 | |||||||
Übung 4 - Query containment | 1 |   | 1 | 5 | 3 | 1 | ||||||
SUMME | 1 | 0 | 12 | 4 | 6 | 6 | 0 | 1 | 14 | 8 | 0 | 1 |
Weitere Materialien und Literatur
- Michael Genesereth, "Data Integration - the Relational Logic Approach", synthesis Lectures, Morgan Clay, 2010.
- Conrad, Hasselbring, Koschel, Tritsch: Enterprise Application Integration, Spektrum Akademischer Verlag, 2006
- Busse, Kutsche, Leser, Weber: Federated Information Systems: Concepts, Terminology and Architectures, Technischer Bericht der TU Berlin, 1999
- Özsu, Valduriez: Principles of Distributed Database Systems, Prentice Hall, 1999
- Yu, Meng: Principles of Database Query Optimization, Morgan Kaufmann, 1998
- Conrad: Föderierte Datenbanksysteme, Springer Verlag, 1997