Hasso-Plattner-Institut
  
Hasso-Plattner-Institut
Prof. Dr. Emmanuel Müller
  
 

Big Data Analytics

Datenanalyse ist in den letzten Jahren ein essentieller Bestandteil der praktischen Informatikausbildung und Forschungslandschaft geworden. In vielen wissenschaftlichen und wirtschaftlichen Anwendungen fallen heutzutage sehr große und komplexe Datenmengen an, welche neue Herausforderungen mit sich bringen. Dieser Trend zu immer größeren und komplexeren Datenbeständen hat unter dem Begriff „Big Data“ eine breite Aufmerksamkeit in der Öffentlichkeit erlangt. In vielen Anwendungen werden enorme Datenmengen aus Sensormessungen, Simulationen oder heterogenen Informationssystemen bereitgestellt. Die Verarbeitung dieser Daten ist für den Menschen manuell nicht mehr möglich und verlangt nach (semi-)automatisierten Datenanalysemethoden.

Explorative Methoden

Bei der Entwicklung wird insbesondere auf eine explorative Datenanalyse (z.B. durch Interaktion zwischen Algorithmus und Domänenexperten) geachtet. Die angestrebten Datenanalysemethoden ermöglichen eine verständliche Präsentation von Analyseergebnissen. Hierzu sollen inhärente Zusammenhänge zwischen verschiedenen Attributen z.B. in Form von Regeln dargestellt werden, um eine semi-automatisierte Exploration für den Domänenexperten zu ermöglichen.

Interdisziplinäre Methoden

Aus bestehenden Projekten mit Wissenschaftlern und Industriepartnern stellen wir fest, dass die reine Anwendung bestehender Datenanalysemethoden zwar ein erster und wichtiger Schritt für die Anwender ist, jedoch langfristig nicht ausreicht. Eine gemeinsame Entwicklung von Methoden zusammen mit Wissenschaftlern und Industriepartner, sowie ein tiefgreifendes Verständnis der jeweiligen Methoden auf beiden Seiten ist daher ein Forschungsschwerpunkt in unserem Fachgebiet. Durch solche interdisziplinäre Forschung erreichen wir erfolgreiche und nachhaltige Entwicklung mit anderen Wissenschaften und Industriepartnern.

Forschungsbereiche:

Unsere Forschung kann man aus mehreren Perspektiven betrachten:

(1) Datenquellen:
Wir erforschen unterschiedliche Datenquellen: hochdimensionalen Daten, heterogene Daten, unsichere Daten, dynamischen Datenströmen, attributierte Graphen und Daten mit unterschiedlichen Sichten und Skalen. siehe Datenquellen

(2) Methoden: Wir analysieren diese Daten mit unterschiedlichen Methoden aus dem Bereich der Cluster Erkennung, Anomalie Erkennung, Vorhersage und Klassifikation, Merkmalsselektion und Teilraumsuche, Schätzung von Dichte, Selektivität und Korrelation, sowie Beschreibung vom Mustern und interaktive Exploration. siehe Methoden

(1) Datenquellen:

(2) Methoden: