Masterseminar: Infrastrukturen für BIG DATA Anwendungen
Prof. Dr. Ulf Leser
Unter dem Modewort "Big Data" versteht man allgemein die komplexe Analyse sehr großer, oftmals un- oder semistrukturierter Datenmengen. Diese Fragestellung fnde man in vielen Bereichen, von der Weblog-Analyse über Sentiment-Analysen in Sozialen Medien oder Genomanalysen in der modernen Molekularmedizin bis zur Kundendatensegmentierung in Onlineshops. Die Art der Analyse muss dazu spezifiziert, die Planung für große Datenmengen optimiert, und die Ausführung auf verteilten Rechnerverbünden koordiniert werden; die Unterstützung dieser (und anderer) Teilschritte ist die Aufgabe einer Big Data Infrastruktur. Im Seminar werden verschiedene solche Infrastrukturen vorgestellt. Wichtige Teilgebiete sind dabei Datenflußsprachen, Scheduling in verteilen Umgebungen, Streaming versus Batch-Processing, Main-Memory Systeme und Optimierungsverfahren für große Datenmengen.
Das Seminar findet im wesentlichen als Blockseminar am Ende des Semesters statt. Vorher sind aber Einführungstermine und individuelle Themenbesprechungen zu besuchen.Das Seminar in AGNES.
Voraussetzungen
- Gute Kenntnisse in Algorithmen und Datenstrukturen (z.B. gleichnamige Vorlesung)
- Kenntnisse in Datenbanken (z.B. Einführung in Datenbanken)
Schein und Anrechenbarkeit
Das Seminar ist anrechenbar für
- Diplom Informatik
- Master Informatik
- Master Wirtschaftsinformatik
Voraussetzungen für den Schein sind:
- der Besuch der Einführungsveranstaltungen,
- die regelmäßige Kommunikation mit dem jeweiligen Betreuer,
- eine Kurzpräsentation des Themas in der Mitte des Semesters,
- das Halten eines wissenschaftlichen Vortrags im Blockseminar am Ende des Semesters, und
- das Erstellen einer schriftlichen Ausarbeitung (Seminararbeit).
Anmeldung
Die Teilnehmerzahl ist begrenzt, die Anmeldung erfolgt über Goya.
Termine und Ablauf
Am Freitag, den 17.10.2014 findet die Einführungsveranstaltung statt, die für alle Teilnehmenden verpflichtend ist. Dort werden die Themen erläutert und vergeben.
Das Seminar wird als Blockseminar am Ende des Semesters abgehalten. Jede(r) Studierende muss einen ca. 30-40 minütigen Vortrag über das zugewiesene Thema halten. Vorher finden mindestens zwei Treffen mit dem/der Betreuer(in) statt, einmal zur Vorbesprechung des Themas und einmal zur Besprechung der Folien. Außerdem wird es in der Mitte des Semesters einen Termin geben, in dem alle Studierenden in einer 5-minütigen Flash-Präsentation ihr Thema vorstellen, um Querverbindungen zu erkennen und die rechtzeitige Beschäftigung mit dem Thema sicherzustellen. Schließlich muss zu jedem Thema eine ca. 15 seitige Seminararbeit verfasst werden. Ggf. gehören auch praktische Umsetzungen mit den Systemen zur Aufgabe
Zusätzlich zu der speziellen Literatur, über die die Vorträge gehalten werden, gibt es für alle Teilnehmer verpflichtende Einführungslektüre.
Alle Pflichttermine in der Übersicht:
- 17.10.14, 11-13 Uhr: Einführung und Themenvergabe, Raum: RUD 26, 1'307
- Bis 30.11.2014: Treffen mit dem Betreuer zur Themenbesprechung und -eingrenzung
- Vor Weihnachten: Flash-Präsentationen; Raum TBA
- Bis 20.1.2015: Treffen mit dem Betreuer zur Besprechung der Folien
- Semesterende: Blockseminar, Raum TBA
- Bis 31.3.2015: Abgabe Seminararbeit
Vorlagen
- Schriftliche Ausarbeitung, Latex
- Vortrag, Powerpoint
- Vortrag, Keynote
- Text für die Selbstständigkeitserklärung
- Checkliste für Vortrag und Seminararbeit
Zeitplan Blockseminar
Donnerstag, 12.2.2015, Raum: Humboldt-Kabinett | ||
09.00 | Sven Schröder | Hadoop: From Map-Reduce to Tez |
10.00 | Felix Stiehler | Die DeWitt/Stonebraker Debatte: Hadoop - Fluch oder Segen? |
Freitag, 13.2.2015, Raum: Humboldt-Kabinett | ||
9.00 | Florian Borchert | Apache SPARK |
10.00 | Lijuan Shi | Distributed machine learning - Mahout & friends |
11.00 | Matthias Höschel | Naia@Microsoft |
12.00 | Pause | |
13.00 | Johannes Berding | Distributed text processing: METEOR, UIMA & friends |
14.00 | Mario Völker | Distributed graph processing: Pregel & Giraph |
15.00 | Michel Manthey | Scube@Facebook |
Themen
Topic | Paper | Vortragende(r) | Betreuer(in) |
---|---|---|---|
Einführende Literatur für alle Teilnehmer |
|
||
Folien der Einführung | Ulf Leser | ||
Hadoop: From Map-Reduce to Tez | Sven Schröder | Marc Bux | |
Hive |
|
Matthias Itzerott | Ulf Leser |
PIG Latin |
|
Abgebrochen | Jörgen Brandt |
Asterix |
|
Felix Stiehler | Ulf Leser |
Large-scale text processing: METEOR, UIMA & friends |
|
Johannes Berding | Astrid Rheinländer |
Pregel and Apache Giraph |
|
Mario Völker | Marc Bux |
SPARK |
|
Florian Borchert | Jörgen Brandt |
Distributed, parallel machine learning - Mahout & friends |
|
Lijuan Shi | Ulf Leser |
Scuba @Facebook |
|
Michel Manthey | Ulf Leser |
Naia@Microsoft |
|
Matthias Höschel | Jörgen Brandt |