Seminar Large Scale Data Analysis
Prof. Dr. Ulf Leser, Marc Bux, Astrid Rheinländer, Johannes Starlinger
Die Datenmengen, die in vielen modernen Anwendungen verarbeitet und analysiert werden müssen, wachsen seit Jahren kontinuierlich und steil an. Beispiele dafür sind Retrievalprobleme bei Internetsuchmaschinen, Analyse von Graphen in sozialen Onlinenetzwerken, oder Empfehlungsgenerierung im eCommerce. Zur Bewältigung dieser Aufgaben werden zunehmend verteilte Systeme eingesetzt (Stichwort: Cloud-Computing). Im Seminar besprechen wir eine Reihe dieser Systeme und der zugrundeliegenden Verfahren (z.B. Pig/Latin, Dryad/Linq, MapReduce, Mahout, ...).
Voraussetzungen
Gute Kenntnisse in Datenbanken
Schein und Anrechenbarkeit
Das Seminar ist anrechenbar für
- Diplom Informatik
- Monobachelor Informatik
- Master Wirtschaftsinformatik
Voraussetzung für den Schein ist:
- das Bestehen einer Kurzklausur zu Grundlagenthemen (siehe unten),
- das Halten eines wissenschaftlichen Vortrags,
- die einmalige Übernahme der "Opponentenrolle" (siehe unten) sowie
- das Erstellen einer schriftlichen Ausarbeiten (Seminararbeit)
Anmeldung
Die Teilnehmerzahl ist begrenzt, die Anmeldung erfolgt über Goya.
Termine und Ablauf
Am 11.04.2012 findet von 11-13 Uhr die Einführungsveranstaltung statt, die für alle Teilnehmenden verpflichtend ist. Dort werden die Themen erläutert und vergeben. Die Folien der Einführungsveranstaltung finden Sie hier.
Das Seminar wird als Blockseminar am Ende des Semesters abgehalten. Jede(r) Studierende (oder jede Gruppe von Studierenden) muss einen ca. 30 minütigen Vortrag über das zugewiesene Thema halten. Vorher finden mindestens zwei Treffen mit dem/der Betreuer(in) statt, einmal zur Vorbesprechung des Themas und einmal zur Besprechung der Folien. Außerdem wird es in der Mitte des Semesters einen Termin geben, in dem alle Studierenden in einer 5-minütigen Flash-Präsentation ihr Thema vorstellen, um Querverbindungen zu erkennen und die rechtzeitige Beschäftigung mit dem Thema sicherzustellen. Schließlich muss zu jedem Thema eine Seminararbeit verfasst werden.
Zu jedem Thema wird ein(e) Studierende(r) vorab als Opponent(in) ausgewählt. Der/Die Opponent(in) liest ebenfalls die zum Thema ausgegebene Literatur und bereitet für den Vortragstermin kritische Fragen zu deren Inhalt vor, die dann im Seminar diskutiert werden. Ziel ist nicht das Aufdecken von Verständnisproblemen beim Vortragenden, sondern die kritische Auseinandersetzung mit dem Thema.
Zusätzlich zu der speziellen Literatur, über die die Vorträge gehalten werden, gibt es für alle Teilnehmer verpflichtende Einführungslektüre. In der Mitte des Semesters werden die dort vermittelten Kenntnisse im Rahmen einer Kurzklausur überprüft. Das Bestehen der Klausur ist Voraussetzung für die weitere Teilnahme.
Alle Pflichttermine in der Übersicht:
- 11.04.2012, 11-13 Uhr, RUD 26 1'307: Einführung (Folien)
- Bis 15.5.2012: Individuelle Themenbesprechung mit Betreuer(in)
- 6.6.2012, 10-12 Uhr, RUD 26, 0'313: Flash-Präsentationen aller Themen
- TBA: Individuelle Folienbesprechung mit Betreuer(in)
-
13.7.2012, 9-15 Uhr, RUD 25, IV.112: Blockseminar
Zeitplan
Uhrzeit Thema Vortragende(r) 09:15 - 09:55 Pig & PigLatin Freywald 09:55 - 10:35 Jaql & JSON Konrad 10:35 - 10:45 Pause 10:45 - 11:25 Stratosphere Schultze 11:25 - 12:05 Text Analytics with MapReduce Kunkel 12:05 - 12:45 Pause 12:45 - 13:25 Taverna Weber 13:25 - 14:05 Pegasus Brandt 14:05 - 14:45 Workflow Schedule Optimization Will - Bis 31.08.2012: Abgabe der Seminararbeit
Vorlagen
- Schriftliche Ausarbeitung, Latex
- Vortrag, Powerpoint
- Vortrag, Keynote
- Text für die Selbstständigkeitserklärung
- Checkliste für Vortrag und Seminararbeit
Einführungslektüre
Thema | Literatur |
---|---|
Pflicht |
|
Einführungsveranstaltung | Folien |
Themen (Abstracts per Mouseover verfügbar)
Cloud architectures & Applications | Vortragende(r) | Opponent(in) | Betreuer(in) | |
---|---|---|---|---|
Pig & PigLatin |
Gates, A. F., Natkovich, O., Chopra, S., Kamath, P., Narayanamurthy, S. M., Olston, C., Reed, B., Srinivasan, S. and Srivastava, U. (2009). "Building a high-level dataflow system on top of Map-Reduce: the Pig experience." Proc. of the VLDB Endowment 2(2): 1414-1425. Olston, C., Reed, B., Srivastava, U., Kumar, R. and Tomkins, A. (2008). "Pig latin: a not-so-foreign language for data processing". SIGMOD Conference, Vancouver, CD. pp 1099-1110. |
Freywald | Konrad | Ulf Leser |
DryadLINQ |
Ekanayake, J., Balkir, A. S., Gunarathne, T., Fox, G., Poulain, C., Araujo, N. and Barga, R. (2009). "DryadLINQ for Scientific Analyses". eScience, Oxford, UK. Yu, Y., Isard, M., Fetterly, D., Budiu, M., Erlingsson, Ú., Gunda, P. K. and Currey, J. (2008). "DryadLINQ: A System for General-Purpose Distributed Data-Parallel Computing Using a High-Level Language".Symposium on Operating Systems Design and Implementation. |
Ulf Leser | ||
Jaql & JSON |
Beyer, K., Ercegovac, V., Gemulla, R., Balmin, A., Eltabakh, M., Kanne, C.C., Ozcan, F. and Shekita, E. (2011). "Jaql: A Scripting Language for Large Scale Semistructured Data Analysis." In PVLDB (industrial track), 4(11), pp. 1272-1283, 2011. Website+Wiki: https://code.google.com/p/jaql/ |
Konrad | Freywald | Astrid Rheinländer |
Stratosphere |
Alexandrov, A., Ewen, S., Heimel, M., Hueske, F., Kao, O., Markl, V., Nijkamp, E. and Warneke D. (2011). "MapReduce and PACT - Comparing Data Parallel Programming Models." In Proceedings of Datenbanksysteme für Business, Technologie und Web (BTW) 2011, pp. 25-44. Battré, D., Ewen, S., Hueske, F., Kao, O., Markl, V. and Warneke, D. (2010). "Nephele/PACTs: A Programming Model and Execution Framework for Web-Scale Analytical Processing." In Proceedings of the ACM Symposium on Cloud Computing (SoCC) 2010 ACM, pp. 119–130. Website+Wiki: http://www.stratosphere.eu/ |
Schultze | Brandt | Astrid Rheinländer |
Text & Data analytics with MapReduce |
Lin, J. and Dyer, C. (2010). "Data-Intensive Text Processing with MapReduce, Chapter 4: Inverted indexing for Text Retrieval." Morgan & Claypool, pp. 65-83.
Apache Mahout: |
Kunkel | Will | Astrid Rheinländer |
Performance Analysis Cloud vs. Cluster | Jackson, K. R., Ramakrishnan, L., Muriki, K., Canon, S., Cholia, S., Shalf, J., Wasserman, H. J. and Wright, N. J. (2010). "Performance Analysis of High Performance Computing Applications on the Amazon Web Services Cloud". Second Int. Conf. on Cloud Computing Technology and Science, Indianapolis, US. | Ulf Leser | ||
Scientific Workflows | ||||
Taverna |
Missier, P., Soiland-Reyes, S., Owen, S., Tan, W., Nenadic, A., Dunlop, I., Williams, A., Oinn, T. and Goble, C. (2010). "Taverna, Reloaded". Int. Conf. on Scientific and Statistical Database Management Systems, Heidelberg, Germany. |
Weber | Schultze | Johannes Starlinger |
Kepler |
S. Bowers and B. Ludäscher. (2005). "Actor-oriented design of scientific workflows". Int. Conf. on Concept. Modeling, pages 369-384, 2005. |
Johannes Starlinger | ||
Scientific Workflow Interoperability |
Elmroth E, Hernández F, Tordsson J. (2010). "Three fundamental dimensions of scientific workflow interoperability : Model of computation , language , and execution environment". Future Generation Computer Systems. 26(2):245-256. |
Johannes Starlinger | ||
Pegasus |
Deelman, E., Singh, G., Su, M., Blythe, J., Gil, Y., Kesselman, C., Mehta, G., Vahi, K., Berriman, G. B., Good, J., Laity, A., Jacob, J. J. and Katz, D. (2005). "Pegasus: A framework for mapping complex scientific workflows onto distributed systems." Scientific Programming, 13(3):219–237. On Condor DAGMan: |
Brandt | Kunkel | Marc Bux |
Scientific Workflow Scheduling | Mandal, A., Kennedy, K., Koelbel, C., Marin, G., Mellor-Crummey, J., Liu, B. and Johnsson, L. (2005). "Scheduling Strategies for Mapping Application Workflows onto the Grid." In Proceedings on the 14th IEEE International Symposium on High Performance Distributed Computing (HPDC-14), pages 125–134. IEEE. | Marc Bux | ||
Workflow Schedule Optimization | Yu, J. and Buyya, R. (2006). "A budget constrained scheduling of workflow applications on utility grids using genetic algorithms." Workshop on Workflows in Support of Large-Scale Science (WORKS’06), pp 1–10, IEEE. | Will | Weber | Marc Bux |