Hasso-Plattner-Institut
 
    • de
Hasso-Plattner-Institut
Prof. Dr. Emmanuel Müller
  
 

Beschreibung

Im Rahmen des Praktikums "Big Data Analytics Lab" wird das theoretische Wissen aus der Vorlesung "Big Data Analytics" mit Hilfe gängiger Softwaretools praktisch vertieft. Die Veranstaltung teilt sich in zwei Blöcke: Einen zum aktuellen Stand der Technik und einen darüber hinausgehenden Themenblock mit offenen Forschungsfragen. Im ersten Block wird unter Anlehnung an den KDD-Prozess ein Anwendungsbeispiel für die Wissensextraktion und Datenexploration in einem Unternehmen durchgespielt. Das Anwendungsbeispiel stammt aus dem jährlich stattfindenden Data Mining Cup. Die Teilnehmer und Teilnehmerinnen des Praktikums treten als Team im Wettbewerb an. Hierbei werden die verschiedenen Data Mining Verfahren näher beleuchtet. Der Fokus liegt auf Verfahren zum Clustering, der Klassifikation sowie der Bestimmung von Frequent Itemsets und Association Rules. Im zweiten Block wird ein einzelner Schritt im KDD-Prozess und dessen Schwächen im Stand der Technik betrachtet. Die Studierenden werden für diese offenen Probleme sensibilisiert und angeleitet eigene Lösungsansätze zu diesen offenen Forschungsfragen zu entwickeln. Sowohl das Anwendungsbeispiel als auch die offenen Forschungsfragen werden in Teams bearbeitet.

Im Praktikum soll das in der Vorlesung "Big Data Analytics" erlernte Wissen über Data Mining in die Praxis umgesetzt werden. Dabei sollen die Studierenden gängige Softwaretools im Bereich Datenanalyse kennenlernen und diese in einer realen Anwendung einsetzen. Im ersten Teil des Praktikums sollen die Studierenden mit der Vorverarbeitung von Rohdaten sowie mit den Analyseschritten im KDD-Prozess vertraut gemacht werden. Sie sollen lernen wie man mit handelsüblichen Analysetools die bestmöglichen Ergebnisse in einer gegeben Anwendung erzielen kann. Im zweiten Teil des Praktikums sollen die Schwächen eines einzelnen Analyseschrittes näher untersucht werden. Die Studierenden werden mit ungelösten Problemen aus der Fachliteratur konfrontiert und lernen Lösungen dazu selbst zu entwickeln. Darüber hinaus sollen die Studierenden lernen, im Team zusammenzuarbeiten, um die einzelnen Aufgaben erfolgreich zu lösen.

Voraussetzung für die Teilnahme:

Die Vorlesung Big Data Analytics ist Voraussetzung für die Teilnahme am Praktikum.

Veranstaltungsplan

Das Praktikum findet jeweils Montags (15:15-16:45) im Seminarraum D-E.9/10 sowie zeitlich flexibel an einem weiteren Tag statt. Termine werden in der ersten Veranstaltung gemeinsam mit den Teilnehmenden festgelegt. Die Studenten können in der Zeit des DMC im Studentenraum des Lehrstuhls E-1-02.1 arbeiten.

Kickoff-Meeting: Montag 9. April 2018 um 15:15 Uhr - 16:45 Uhr in Raum D-E.9/10
Wir bitten alle Interessierten zum Kickoff-Meeting zu erscheinen, da die Plätze im Seminar beschränkt sind. Zur Vorbereitung kann bereits am dem 5. April Aufgabenstellung des Data-Mining-Cups studiert werden.

Datum Thema  
DO  5.04.  Data Mining Cup: Kickoff  
MO  9.04.  Beginn des Seminars, Auslosung der Teilnehmer  
MO  16.04.  1. Zwischenpräsentationen  
MO   weitere Zwischenpräsentationen  
DO  17.05. Data Mining Cup: Deadline for solutions  
MO   weitere Seminartermine  
DI  26.06 Data Mining Cup: Prudsys Personalization Summit  
MI  27.06 Data Mining Cup: Prudsys Personalization Summit  
MO   weitere Seminartermine  

Literatur

  • Data Mining: Concepts and Techniques (3rd edition): Jiawei Han, Micheline Kamber, Jian Pei, Morgan Kaufmann Publishers 2011 (online verfügbar)
  • Data Mining and Analysis, Fundamental Concepts and Algorithms: Mohammed J. Zaki, Wagner Meira JR., Campridge University Press 2014 (online verfügbar)
  • Mining of Massive Datasets: Jure Leskovec, Anand Rajaraman, Jeffrey David Ullman. Second Edition (2014) (online verfügbar)
  • Introduction to Data Mining: Pang-Ning Tan, Michael Steinbach, Vipin Kumar, Addison-Wesley 2006
  • Knowledge Discovery in Databases: Martin Ester, Jörg Sander, Springer 2000