Seminar Large Scale Data Analysis

Wissensmanagement in der Bioinformatik | Seminar Large Scale Data Analysis

Seminar Large Scale Data Analysis

Prof. Dr. Ulf Leser, Marc Bux, Astrid Rheinländer, Johannes Starlinger

Die Datenmengen, die in vielen modernen Anwendungen verarbeitet und analysiert werden müssen, wachsen seit Jahren kontinuierlich und steil an. Beispiele dafür sind Retrievalprobleme bei Internetsuchmaschinen, Analyse von Graphen in sozialen Onlinenetzwerken, oder Empfehlungsgenerierung im eCommerce. Zur Bewältigung dieser Aufgaben werden zunehmend verteilte Systeme eingesetzt (Stichwort: Cloud-Computing). Im Seminar besprechen wir eine Reihe dieser Systeme und der zugrundeliegenden Verfahren (z.B. Pig/Latin, Dryad/Linq, MapReduce, Mahout, ...).

Voraussetzungen

Gute Kenntnisse in Datenbanken

Schein und Anrechenbarkeit

Das Seminar ist anrechenbar für

Diplom Informatik
Monobachelor Informatik
Master Wirtschaftsinformatik

Voraussetzung für den Schein ist:

das Bestehen einer Kurzklausur zu Grundlagenthemen (siehe unten),
das Halten eines wissenschaftlichen Vortrags,
die einmalige Übernahme der "Opponentenrolle" (siehe unten) sowie
das Erstellen einer schriftlichen Ausarbeiten (Seminararbeit)

Anmeldung

Die Teilnehmerzahl ist begrenzt, die Anmeldung erfolgt über Goya.

Termine und Ablauf

Am 11.04.2012 findet von 11-13 Uhr die Einführungsveranstaltung statt, die für alle Teilnehmenden verpflichtend ist. Dort werden die Themen erläutert und vergeben. Die Folien der Einführungsveranstaltung finden Sie hier.

Das Seminar wird als Blockseminar am Ende des Semesters abgehalten. Jede(r) Studierende (oder jede Gruppe von Studierenden) muss einen ca. 30 minütigen Vortrag über das zugewiesene Thema halten. Vorher finden mindestens zwei Treffen mit dem/der Betreuer(in) statt, einmal zur Vorbesprechung des Themas und einmal zur Besprechung der Folien. Außerdem wird es in der Mitte des Semesters einen Termin geben, in dem alle Studierenden in einer 5-minütigen Flash-Präsentation ihr Thema vorstellen, um Querverbindungen zu erkennen und die rechtzeitige Beschäftigung mit dem Thema sicherzustellen. Schließlich muss zu jedem Thema eine Seminararbeit verfasst werden.

Zu jedem Thema wird ein(e) Studierende(r) vorab als Opponent(in) ausgewählt. Der/Die Opponent(in) liest ebenfalls die zum Thema ausgegebene Literatur und bereitet für den Vortragstermin kritische Fragen zu deren Inhalt vor, die dann im Seminar diskutiert werden. Ziel ist nicht das Aufdecken von Verständnisproblemen beim Vortragenden, sondern die kritische Auseinandersetzung mit dem Thema.

Zusätzlich zu der speziellen Literatur, über die die Vorträge gehalten werden, gibt es für alle Teilnehmer verpflichtende Einführungslektüre. ~~In der Mitte des Semesters werden die dort vermittelten Kenntnisse im Rahmen einer Kurzklausur überprüft. Das Bestehen der Klausur ist Voraussetzung für die weitere Teilnahme.~~

Alle Pflichttermine in der Übersicht:

11.04.2012, 11-13 Uhr, RUD 26 1'307: Einführung (Folien)
Bis 15.5.2012: Individuelle Themenbesprechung mit Betreuer(in)
6.6.2012, 10-12 Uhr, RUD 26, 0'313: Flash-Präsentationen aller Themen
TBA: Individuelle Folienbesprechung mit Betreuer(in)

13.7.2012, 9-15 Uhr, RUD 25, IV.112: Blockseminar

Zeitplan

Uhrzeit	Thema	Vortragende(r)
09:15 - 09:55	Pig & PigLatin	Freywald
09:55 - 10:35	Jaql & JSON	Konrad
10:35 - 10:45	Pause
10:45 - 11:25	Stratosphere	Schultze
11:25 - 12:05	Text Analytics with MapReduce	Kunkel
12:05 - 12:45	Pause
12:45 - 13:25	Taverna	Weber
13:25 - 14:05	Pegasus	Brandt
14:05 - 14:45	Workflow Schedule Optimization	Will

Bis 31.08.2012: Abgabe der Seminararbeit

Vorlagen

Einführungslektüre

Thema	Literatur
Pflicht	Markl, V., Ewen, S. and Alexandrov, A. (2012). "Web-Scale Analytics for BIG Data." (wird im Seminar ausgegeben) Varia, J. (2008). "Cloud Architectures". Amazon Technical White Paper. Deelman, E., Gannon, D., Shields, M. and Taylor, I. (2009). "Workflows and e-Science: An overview of workflow system features and capabilities." Future Generation Computer Systems 25(5): 528-540.
Einführungsveranstaltung	Folien

Themen (Abstracts per Mouseover verfügbar)

Cloud architectures & Applications		Vortragende(r)	Opponent(in)	Betreuer(in)
Pig & PigLatin	Gates, A. F., Natkovich, O., Chopra, S., Kamath, P., Narayanamurthy, S. M., Olston, C., Reed, B., Srinivasan, S. and Srivastava, U. (2009). "Building a high-level dataflow system on top of Map-Reduce: the Pig experience." Proc. of the VLDB Endowment 2(2): 1414-1425. Olston, C., Reed, B., Srivastava, U., Kumar, R. and Tomkins, A. (2008). "Pig latin: a not-so-foreign language for data processing". SIGMOD Conference, Vancouver, CD. pp 1099-1110.	Freywald	Konrad	Ulf Leser
DryadLINQ	Ekanayake, J., Balkir, A. S., Gunarathne, T., Fox, G., Poulain, C., Araujo, N. and Barga, R. (2009). "DryadLINQ for Scientific Analyses". eScience, Oxford, UK. Yu, Y., Isard, M., Fetterly, D., Budiu, M., Erlingsson, Ú., Gunda, P. K. and Currey, J. (2008). "DryadLINQ: A System for General-Purpose Distributed Data-Parallel Computing Using a High-Level Language".Symposium on Operating Systems Design and Implementation.			Ulf Leser
Jaql & JSON	Beyer, K., Ercegovac, V., Gemulla, R., Balmin, A., Eltabakh, M., Kanne, C.C., Ozcan, F. and Shekita, E. (2011). "Jaql: A Scripting Language for Large Scale Semistructured Data Analysis." In PVLDB (industrial track), 4(11), pp. 1272-1283, 2011. Website+Wiki: https://code.google.com/p/jaql/	Konrad	Freywald	Astrid Rheinländer
Stratosphere	Alexandrov, A., Ewen, S., Heimel, M., Hueske, F., Kao, O., Markl, V., Nijkamp, E. and Warneke D. (2011). "MapReduce and PACT - Comparing Data Parallel Programming Models." In Proceedings of Datenbanksysteme für Business, Technologie und Web (BTW) 2011, pp. 25-44. Battré, D., Ewen, S., Hueske, F., Kao, O., Markl, V. and Warneke, D. (2010). "Nephele/PACTs: A Programming Model and Execution Framework for Web-Scale Analytical Processing." In Proceedings of the ACM Symposium on Cloud Computing (SoCC) 2010 ACM, pp. 119–130. Website+Wiki: http://www.stratosphere.eu/	Schultze	Brandt	Astrid Rheinländer
Text & Data analytics with MapReduce	Lin, J. and Dyer, C. (2010). "Data-Intensive Text Processing with MapReduce, Chapter 4: Inverted indexing for Text Retrieval." Morgan & Claypool, pp. 65-83. Apache Mahout: "Introducing Apache Mahout." ibm.com. 2011. http://mahout.apache.org/	Kunkel	Will	Astrid Rheinländer
Performance Analysis Cloud vs. Cluster	Jackson, K. R., Ramakrishnan, L., Muriki, K., Canon, S., Cholia, S., Shalf, J., Wasserman, H. J. and Wright, N. J. (2010). "Performance Analysis of High Performance Computing Applications on the Amazon Web Services Cloud". Second Int. Conf. on Cloud Computing Technology and Science, Indianapolis, US.			Ulf Leser
Scientific Workflows
Taverna	Missier, P., Soiland-Reyes, S., Owen, S., Tan, W., Nenadic, A., Dunlop, I., Williams, A., Oinn, T. and Goble, C. (2010). "Taverna, Reloaded". Int. Conf. on Scientific and Statistical Database Management Systems, Heidelberg, Germany.	Weber	Schultze	Johannes Starlinger
Kepler	S. Bowers and B. Ludäscher. (2005). "Actor-oriented design of scientific workflows". Int. Conf. on Concept. Modeling, pages 369-384, 2005.			Johannes Starlinger
Scientific Workflow Interoperability	Elmroth E, Hernández F, Tordsson J. (2010). "Three fundamental dimensions of scientific workflow interoperability : Model of computation , language , and execution environment". Future Generation Computer Systems. 26(2):245-256.			Johannes Starlinger
Pegasus	Deelman, E., Singh, G., Su, M., Blythe, J., Gil, Y., Kesselman, C., Mehta, G., Vahi, K., Berriman, G. B., Good, J., Laity, A., Jacob, J. J. and Katz, D. (2005). "Pegasus: A framework for mapping complex scientific workflows onto distributed systems." Scientific Programming, 13(3):219–237. On Condor DAGMan: Couvares, P., Kosar, T., Roy, A., Weber, J. and Wenger, K. (2007). "Workflow Management in Condor". Workflows for e-Science, Part III, 357-375.	Brandt	Kunkel	Marc Bux
Scientific Workflow Scheduling	Mandal, A., Kennedy, K., Koelbel, C., Marin, G., Mellor-Crummey, J., Liu, B. and Johnsson, L. (2005). "Scheduling Strategies for Mapping Application Workflows onto the Grid." In Proceedings on the 14th IEEE International Symposium on High Performance Distributed Computing (HPDC-14), pages 125–134. IEEE.			Marc Bux
Workflow Schedule Optimization	Yu, J. and Buyya, R. (2006). "A budget constrained scheduling of workflow applications on utility grids using genetic algorithms." Workshop on Workflows in Support of Large-Scale Science (WORKS’06), pp 1–10, IEEE.	Will	Weber	Marc Bux