Data Warehousing und Data Mining
Mit Data Warehouses (DWH) werden sehr große, integrierte und auf die Datenanalyse ausgerichtete Datenbanken bezeichnet. Die Vorlesung behandelt diese Thematik in zwei Blöcken. Im ersten Block werden Methoden zum Aufbau und Management von DWH in relationalen Datenbanken vorgestellt (Architekturen, ETL-Prozess, das multidimensionale Datenmodell, OLAP Operationen, Bitmap-Indexe, materialisierte Sichten etc.). Im zweiten Block besprechen wir Algorithmen, die auf den gesammelten Daten Analysen vornehmen (Data Mining), wie zum Beispiel Klassifikation, Clustering und Recommendation-Algorithmen. Der Schwerpunkt liegt auf der performanten Implementierung solcher Algorithmen in Datenbanken. In der vorlesungsbegleitende Übung werden ausgewählte Verfahren anhand aktueller kommerzieller relationaler Datenbanken (Oracle) erprobt.
Voraussetzungen
Voraussetzung für den Besuch sind gute Kenntnisse in relationalen Datenbanken (z.B. Modul Datenbanken I).
Prüfungen
Prüfungen sind mündlich. Die Vorlesung anrechenbar für
- Diplomstudiengang Informatik, Halbkurs praktischen Informatik, 8SP
- Monobachelor Informatik, Wahlpflichtbereich, 8SP
- Mater Wirtschaftsinformatik, 8SP
Themen
Folien sind hier jeweils vor der Vorlesung als PDF verfügbar. Änderungen möglich.
- Einführung Data Warehouses
- Kurz-Wiederholung RDBMS
- Architektur und Prozesse
- Das multidimensionale Datenmodell
- OLAP Operationen und Modellierung
- Speicherung multidimensionaler Daten: ROLAP versus MOLAP
- Sprachen: OLAP mit SQL, OLAP mit MDX
- Der ETL Prozess
- Indexstrukturen für Data Warehouses
- Multidimensionale
Indexstrukturen
- Logische Optimierung: Star Joins und Partitionierung
- Optimierung von OLAP Operationen
- Materialisierte Sichten: Ableitbarkeit und Optimierung
- Materialisierte Sichten: Auswahl und Aktualisierung
- Einführung in Data Mining und KDD
- Clustering: Hierarchisches Cluster, k-Means, DBSCAN
- Klassifikation: Naive Bayes, Decision Trees, SPRINT
- Assoziationsregeln: A-Priori Algorithmus
- Abschluss
Literatur
- Lehner: Datenbanktechnologie für Data Warehouse Systeme, dpunkt.verlag, 2003
- Bauer/Günzel: Data Warehouse Systeme, dpunkt.verlag, 2008
- Han/Kamber: Data Mining, Morgan Kaufmann, 2006
- Jensen, Pedersen, Thomsen: Multidimensional Databases and Data Warehousing, Morgan&Claypool, Synthesis Lectures, 2010