Informationsintegration
Professor Ulf Leser
Informationsintegration bezeichnet das automatische Verschmelzen heterogener Informationen aus verschiedenen Datenquellen zu einem homogenen Gesamtbild. Dieser Halbkurs bietet eine Einführung in dieses hochaktuelle Thema. Behandelt werden eine Vielzahl von Verfahren, Algorithmen und Architekturen, wie verteilte Datenbanken, Multidatenbankanfragesprachen, materialisierte und virtuelle Architekturen, Anfrageübersetzung und Optimierung. Darüber hinaus werden Spezialthemen, wie Ontologien und Methoden des Data Cleansing, behandelt. Der Halbkurs wird von einem Praktikum begleitet.
Voraussetzungen
Voraussetzung für den Besuch sind gute Kenntnisse in relationaler Datenbanktechnik und Grundkenntnisse in XML.
Prüfungen
Prüfungen sind mündlich. Die Vorlesung ist als Halbkurs der praktischen Informatik anrechenbar. Voraussetzung für die Prüfung ist das Bestehen des Praktikums.
Literatur
- Ulf Leser, Felix Naumann: Informationsintegration, dpunkt.verlag, 2006
- Weitere Literatur und Links
Themen und Folien
(Folien sind hier jeweils vor der Vorlesung als PDF verfügbar. Änderungen möglich).- Einleitung
- Grundlagen relationaler Datenbanken
- Szenarien der Informationsintegration; Extension und Intension
- Verteilung und Autonomie
- Heterogenität und Transparenz
- Architekturen zur Informationsintegration
- Mediator-Wrapper-Systeme und Peer-Data-Management
- Data Warehouses; Vergleich virtuelle und materialisierte Integration
- Multidatenbanksprachen: SchemaSQL Teil1, Teil2
- Übersicht Anfragebearbeitung; Global-as-view
- Anfragekorrespondenzen, Local-as-View und Semantik globaler Anfragen
- Query Containment, Frozen Facts Algorithmus (korrigierte Version, Stand 16.1.2009)
- Answering Queries using Views, Bucket Algorithmus
- AQUV - Varianten: MiniCon, Inverse Rules
- Globale, logische Optimierung verteilter Anfragen
- Kostenbasierte Optimierung verteilter Anfragen (Join-Order ist nicht prüfungsrelevant)
- Semi-Join Optimierung (korrigierte Version, Stand 8.1.2009)
- Umgang mit beschränkten Quellen; Binding Pattern
- Schema Matching
- Gastvorlesung Hr. Pabst / Hr. Herrmann, CapGemini sd&m: Integrationsprojekte in der Praxis
- Schema Mapping
- Schemaintegration
- Semantische Integration: Ontologien und Wissensrepräsentationssprachen
- Duplikaterkennung
- Datenfusion und Informationsqualität
- Gastvorlesung Dr. Löser, TU Berlin: Business Intelligence over Text
- Semantic Web: RDF, RDFS, SparQL, OWL
- Zusammenfassung
Weitere Materialien
Ergänzende Literatur
- Michael Genesereth, "Data Integration - the Relational Logic Approach", synthesis Lectures, Morgan Clay, 2010.
- Conrad, Hasselbring, Koschel, Tritsch: Enterprise Application Integration, Spektrum Akademischer Verlag, 2006
- Busse, Kutsche, Leser, Weber: Federated Information Systems: Concepts, Terminology and Architectures, Technischer Bericht der TU Berlin, 1999
- Özsu, Valduriez: Principles of Distributed Database Systems, Prentice Hall, 1999
- Yu, Meng: Principles of Database Query Optimization, Morgan Kaufmann, 1998
- Conrad: Föderierte Datenbanksysteme, Springer Verlag, 1997