Advanced Map/ Reduce Algorithms on Hadoop (Wintersemester 2009/2010)
Dozent:
Prof. Dr. Felix Naumann
(Information Systems)
,
Dr. Alexander Albrecht
(Information Systems)
Allgemeine Information
- Semesterwochenstunden: 2
- ECTS: 3
- Benotet:
Ja
- Einschreibefrist: 06.11.2009
- Lehrform:
- Belegungsart: Wahlpflichtmodul
Studiengänge
- IT-Systems Engineering MA
Beschreibung
In diesem Seminar werden aktuelle Web Mining Techniken diskutiert, implementiert und evaluiert. Dabei entwickeln die Teilnehmer ihre Lösung mit dem MapReduce-Framework Apache Hadoop, einer Java-basierte Software-Plattform für das verteilte Verarbeiten großer Datenmengen. Die folgenden Themen werden im Rahmen dieses Seminars angeboten:
- Detecting Near Duplicates for Web Crawling, Manku et al., WWW 2007
- Brute force and indexed approaches to pairwise document similarity
comparisons with MapReduce, Jimmy Lin, SIGIR 2009 - Efficient search ranking in social networks, Vieira et al., CIKIM 2007
- The PageRank Citation Ranking: Bringing Order to the Web, Page, Lawrence and Brin, Sergey and Motwani, Rajeev and Winograd, Terry, Technical Report, Stanford InfoLab, 1999
- Scalable Distributed Reasoning using Map Reduce, Urbani et al., ISWC 2009
- Distributed Algorithm for Computing Formal Concepts Using Map-Reduce Framework, Petr Krajca and Vilem Vychodil, IDA 2009
- Graph Twiddling in a MapReduce World, Cohen and Jonathan, Computing in Science and Engineering, 2009
- DisCo: Distributed Co-clustering with Map-Reduce, Spiros Papadimitriou and Jimeng Sun, ICDM 2008
Voraussetzungen
Literatur
labs.google.com/papers/mapreduce.html
hadoop.apache.org
Lern- und Lehrformen
Projektseminar im Umfang von 2 SWS
Leistungserfassung
- Teilnahme an allen Seminarterminen
- Anwesenheit bei Konsultationen
- Implementierung einer Map/Reduce Lösung in Java
- Präsentation der implementierten Lösung, inkl. Demo, als Vortrag am Ende des Semesters. Dauer: 30 Minuten Vortrag + 15 Minuten Diskussion
- Ausarbeitung (4 - 5 Seiten)
- Abschlussnote berücksichtigt die folgenden Punkte
- Implementierte Lösung
- Präsentation / Vortrag
- Ausarbeitung
Termine
- Dienstag 15:15 – 16:45
- Erste Session: 20.10.2009
Zurück