Scalable Data Analysis Algorithms (Wintersemester 2011/2012)
Dozent:
Prof. Dr. Felix Naumann
(Information Systems)
Allgemeine Information
- Semesterwochenstunden: 3
- ECTS: 6
- Benotet:
Ja
- Einschreibefrist: 1.10.2011 - 31.3.2012
- Lehrform: Seminar
- Belegungsart: Wahlpflichtmodul
Studiengänge, Modulgruppen & Module
- Operating Systems & Information Systems Technology
Beschreibung
Um die immer schneller ansteigende Menge an Daten zuverlässig zu verarbeiten und analysieren, hat Google 2004 das MapReduce Programmiermodell vorgestellt [1]. Probleme werden in kleine leicht parallelisierbare Unterprobleme formuliert und können dann in einem Cluster oder einer Cloud ausgeführt werden. Somit werden auch große Datenmengen beherrschbar.
In diesem Seminar untersuchen wir die Umsetzung von größeren Datenverarbeitungsproblemen auf zwei skalierbaren Plattformen. Je eine 2er Gruppe wird ein Problem auf dem populären Hadoop Framework [2] und dem neuen Stratosphere Projekt [3] umsetzen. Anschließend wird die Gruppe beide Lösungen vergleichend auf dem Lehrstuhlcluster (10 Maschinen) evaluieren.
Weitere Informationen und die Themen finden sich auf der Lehrstuhlseite.
Voraussetzungen
none
Literatur
[1] Jeffrey Dean and Sanjay Ghemawat. 2008. MapReduce: simplified data processing on large clusters. Communications of the ACM 51
[2] http://hadoop.apache.org/
[3] http://www.stratosphere.eu/
[4] Anand Rajaraman and Jeff Ullman. 2010. Mining of Massive Datasets. http://infolab.stanford.edu/~ullman/mmds.html
Lern- und Lehrformen
Seminar
Leistungserfassung
- Vorstellungsvortrag des Themas und Lösungsskizze (15+5 min)
- Implementierung auf Hadoop und Stratosphere
- Zwischenbericht (15+5 min)
- Abschlussvortrag (30+10 min)
- Ausarbeitung (6-8 Seiten)
- Beteiligung in den Seminaren und bei den optionalen Konsultationen
Termine
- 18.10.2011: Themenvorstellung
- 22.10.2011: Abgabe Wunschliste Themen/Teams
- 24.10.2011: Benachrichtigung der Teilnehmer
- Weitere Termine sind auf der Lehrstuhlseite zu finden
Zurück