Halbkurs Informationsintegration
Halbkurs im Wintersemester 2006/2007
Professor Ulf Leser
Informationsintegration bezeichnet das automatische Verschmelzen heterogener Informationen aus verschiedenen Datenquellen zu einem homogenen Gesamtbild. Dieser Halbkurs bietet eine Einführung in dieses hochaktuelle Thema. Behandelt werden eine Vielzahl von Verfahren, Algorithmen und Architekturen, wie verteilte Datenbanken, Multidatenbankanfragesprachen, materialisierte und virtuelle Architekturen, Anfrageüberetzung und Optimierung. Darüber hinaus werden Spezialthemen, wie Ontologien und Methoden des Data Cleansing, behandelt. Der Halbkurs wird von einem Praktikum begleitet.
Voraussetzungen
Voraussetzung für den Besuch sind gute Kenntnisse in relationaler Datenbanktechnik und Grundkenntnisse in XML.
Prüfungen
Prüfungen sind mündlich. Die Vorlesung ist als Halbkurs der praktischen Informatik anrechenbar. Voraussetzung für die Prüfung ist das Bestehen des Praktikums.
Literatur
Ulf Leser, Felix Naumann: Informationsintegration, dpunkt.verlag, 2006
Themen und Folien
(Folien sind hier jeweils vor der Vorlesung als PDF verfügbar. Änderungen möglich).- Einleitung
- Grundlagen relationaler Datenbanken
- Szenarien der Informationsintegration, Abgrenzung und Potentiale
- Verteilung und Autonomie
- Heterogenität und Transparenz
- Architekturen zur Informationsintegration
- Mediator-Wrapper Systeme; Peer Data Management (Update, 9.11.2006)
- Data Warehouses; Vergleich virtuelle und materialisierte Integration
- Multidatenbanksprachen: SchemaSQL
- Übersicht Anfragebearbeitung; Global-as-view
- Anfragekorrespondenzen und Local-as-View
- Projekt Aladin: Almost Hands-Off Data Integration for the Life Sciences
- Query Containment, Frozen Facts
Algorithmus (Update, 14.12.2006)
- Answering Queries using Views, Bucket Algorithmus
- AQUV - Varianten: MiniCon, Inverse
Rules, Qualitätsbasierte Anfrageplanung
- Logische Optimierung verteilter Anfragen
- Kostenbasierte Optimierung (Update, 9.1.2007)
- Semi-Join Optimierung (Update, 18.1.2007)
- Umgang mit beschränkten Quellen; Binding Pattern
- Schema Matching (Gastvorlesung Prof. Naumann)
- Schemaintegration (Update, 23.1.2007)
- Schema Mapping
- Duplikaterkennung
- Datenfusion und Informationsqualität
- Ontologien und Wissensrepräsentationssprachen
- Das Semantic Web; RDF, RDFS, SparQL, OWL
- Zusammenfassung
Ergänzende Literatur
- Özsu, Valduriez: Distributed Database Systems
- Yu, Meng: Principles of Database Query Optimization
- Conrad: Föderierte Datenbanksysteme