Übung zum HalbkursData Warehousing und Data Mining
Professor Ulf Leser, Sommersemester 2007
Die Übung begleitet den Halbkurs Data Warehousing und Data Mining. Wir erproben aktuelle Verfahren zum Umgang mit sehr großen Datenbanken am Beispiel Oracle. Die Übung wird in Gruppen durchgeführt und ist als Wettbewerb mit einer Reihe von Aufgaben konzipiert.
Die Anmeldung erfolgt über GOYA
ACHTUNG: Aufgrund der beschränkten Zahl verfügbarer Plätze und des grossen Andrangs an Studenten ist der erste Termin am 26.4.2007 ein Pflichttermin, bei dem die Plätze vergeben und die Gruppen gebildet werden
Ablauf
Die Übung wird in Gruppen á 2-3 Personen durchgeführt. Jede Übungsgruppe muss 5 Aufgabenblätter bearbeiten. Für die Bearbeitung stehen jeweils 2-3 Wochen zur Verfügung. Der Ablauf wird sich so gestalten, dass an einem Termin jeweils die neue Aufgabe gestellt und die Lösungen der alten Aufgabe besprochen werden. Dabei stellt jede Gruppe ihre Lösung kurz vor. Die Termine, an denen keine neuen Aufgaben gestellt werden, sind offene Frage- bzw. Diskussionsstunden.
Aufgaben und Abgabe
Abgabe der Lösungen: Bis 23.59 Uhr am Tag der vorgesehenen Abgabe per Mail an Prof. Leser. Zu spät eingegangene Lösungen werden nicht mehr berücksichtigt.
Voraussetzung für den Erhalt eines Übungsscheines ist die Bearbeitung sämtlicher Aufgaben (in Gruppen) und die Vorstellung mindestens einer Lösung in einer der Übungsstunden (pro TeilnehmerIn). Jede Gruppe muss für jede Aufgabe mindestens die Hälfte der erreichbaren Punkte (20 pro Blatt) erreichen.
Wettbewerb
Drei von den fünf Aufgaben werden konkurrierend zu lösen sein. Zusätzlich zu den Bewertungen für korrekt gelöste Aufgaben, die für den Übungsschein ausschlaggebend sind, gibt es 'Wettbewerbspunkte'. Die Lösungvorschläge entsprechen einem vorgegebenen Format und werden bewertet nach Effizienz, Rechenzeit, Speicherplatz u.ä. Für die am Semesterende insgesamt beste Gruppe wird es eine kleine Überraschung geben.
Termine im Einzelnen
Achtung: Ungefähr jeder zweite bis dritte Donnerstag ist ein
Termin mit Anwesenheitspflicht. Die angegebenen Tage können sich noch
verschieben.
In der ersten Semesterwoche ist keine Übung.
- Erste Übung am 26.04.2007
- Organisatorisches, Einteilung in Gruppen
- Folien: Kurze Einführung in JDBC und PL/SQL, Benutzung von EXPLAIN PLAN
- Links: Anlegen der PLAN_TABLE, Mitarbeiterverzeichnis
- Aufgabenblatt 1: PL/SQL (Bearbeitungszeit: 2 Wochen)
- Zweite Übung und Abgabe erstes Blatt: 10.5.2007
- Folien: Hash Join
- Aufgabenblatt 2: Differential Snapshots
(Wettbewerb)
Bearbeitungszeit: 2 Wochen
- Dritte Übung und Abgabe zweites Blatt: 24.5.2007
- Beispieldaten
- Aufgabenblatt 3: Multidimensionale
Modellierung
Bearbeitungszeit: 2 Wochen
- Vierte Übung und Abgabe drittes Blatt: 7.6.2007
- TPC-H Webseite
- Übersicht über das TPC-H Schema
- Skript zum Anlegen des TPC-H Schema
- Altes Rahmenscript für die Zeitmessungen
- Neues Rahmenscript für die Zeitmessungen
- Aufgabenblatt 4: Indexierung
(Wettbewerb)
Bearbeitungszeit: 3 Wochen
- Fünfte Übung und Abgabe viertes Blatt: 28.6.2007
- TPC-H Webseite
- Übersicht über das TPC-H Schema
- Skript zum Anlegen des TPC-H Schema
- Script zur Zeitmessung
- Script zum Messen der Größe eines Materialized Views
- Queries der Aufgabe
- Aufgabenblatt 5: Materialisierte Sichten
(Wettbewerb)
Bearbeitungszeit: 2 Wochen
- Abgabe fünftes Blatt: Sonntag, 15.7.2007
- Präsentation Aufgaben fünftes Blatt und Abschluss mit Siegerehrung:
Donnerstag,
19.7.2007
- Ergebnis des Wettbewerb und Take-Home Messages
Weitere Informationen
- Einige Tools für den Umgang mit Oracle
- Aqua Data Studio: www.aquafold.com
Query Analyzer, Scheme & Script Browser, Table Editor, Query Results Viewer.
Erhältlich für Linux, Windows, MacOS X, Solaris, Java. Benötigt keinen Oracle Client. - SQL-Tools: www.sqltools.net
Graphisches Explain Plan, Object View, PL/SQL Editor, Syntax Highlighting, etc.
Nur Windows, man braucht eine Oracle Client Installation. - TORA: tora.sourceforge.net/
Tool für Windows & Linux.
Benötigt den Oracle Client. - TOAD: www.toadsoft.com/downld.html Sehr mäöchtiges kommerzielles
Tool. Erhältlich auch in einer (begrenzten) FreeWare-Version.
Nur Windows, benötigt den Oracle Client. - DB Designer 4: fabforce.net/dbdesigner4/ Graphische Modellierung, Oracle-Unterstützung. Für Windows und Linux
- Aqua Data Studio: www.aquafold.com
- Oracle Technology Network (Registrierung erforderlich)