Hasso-Plattner-InstitutSDG am HPI
Hasso-Plattner-InstitutDSG am HPI
  
Login
  • de
 

19.08.2020

News

Neues Forschungsprojekt FONDA will Datenanalysen für Naturwissenschaftler vereinfachen

Hunderttausende Zellproben oder Bilddaten in Terrabyte-Größe überall steigen die Forschungsdaten in den Naturwissenschaften stark an. Ihre Auswertung erfordert bis jetzt zeitaufwendiges Programmieren und hohe Rechnerleistungen mit viel Speicherkapazität. Ein interdisziplinäres Forschungsteam arbeitet an Lösungen für eine simplere Methode zur Analyse großer Datensätze. Professor Tilmann Rabl, Leiter des Fachgebiets Data Engineering Systems am Hasso-Plattner-Institut (HPI), und sein Team sind Teil des neuen Verbundprojekts.

Foundations of Workflows for Large-Scale Scientific Data Analysis (FONDA)
Foundations of Workflows for Large-Scale Scientific Data Analysis (FONDA)

Immer mehr Frage- und Problemstellungen in den Naturwissenschaften lassen sich nur mit komplexer und aufwendiger Programmierarbeit lösen. Wissenschaftler benötigen daher oft Monate, um ihre Analysesysteme so anzupassen, dass sie für ihre Forschung effizient funktionieren. Das behindert und verlangsamt jedoch den wissenschaftlichen Fortschritt.

Forschung an einer effizienteren Datenstromverarbeitung

Der Sonderforschungsbereich „Foundations of Workflows for Large-Scale Scientific Data Analysis“, kurz FONDA, möchte das zeitintensive Programmieren und den Aufwand bei der Softwareentwicklung minimieren. Ziel der Wissenschaftlerinnen und Wissenschaftler ist es, neue Abstraktionen, Algorithmen und Modelle zu entwickeln, und so eine neue Basis für eine zukünftige Generation von Infrastrukturen der Datenanalyse zu schaffen. Insgesamt arbeiten 19 Forscherinnen und Forscher in 12 Teams interdisziplinär an Lösungen, die den Programmieraufwand sowie die -kosten reduzieren. HPI-Prof. Tilmann Rabl arbeitet zusammen mit Prof. Lars Grunske, Professor für Software Engineering an der Humboldt-Universität Berlin, im Teilprojekt B6 an einer effizienteren verteilten Datenstromverarbeitung.

Komplexität der Daten führt zu komplizierter Datenverarbeitung

„Datenströme sind ein kontinuierlicher Fluss von Datensätzen, die von einer Quelle, zum Beispiel einem Sensor, gesendet werden. Die Datensätze werden dabei kontinuierlich hintereinander verarbeitet“, so Rabl. Das Verfahren werde durch einen individuellen Ablauf der einzelnen Verwertungsschritte gesteuert. Durch die Komplexität des Prozesses komme es häufig vor, dass die Ausführung der Datenverarbeitung nicht wie gewünscht funktioniere. Das sei insbesondere so, wenn es sich dabei um einen Zusammenschluss verschiedener Computer und Server, sogenannter verteilter Systeme, handele.

Fehler und Probleme in wissenschaftlichen Programmen einfacher finden

Rabl forscht daher an einer Möglichkeit, zur besseren Überwachung und Steuerung dieser verteilten Systeme. "Wir erforschen im Projekt Algorithmen für effizientere Verarbeitung und die Verwendung neuartiger Hardware für den Transport von Monitoringinformation in verteilten Datenanalyse-Workflows. Dadurch lassen sich Fehler und Probleme in den wissenschaftlichen Programmen deutlich schneller finden und beheben," so Rabl.

FONDA ist ein gemeinsames Forschungsprojekt des Hasso-Plattner-Instituts, der Humboldt-Universität zu Berlin, der Technischen Universität zu Berlin, der Freien Universität Berlin, der Charité Berlin, des Max-Delbrück-Centrums für Molekulare Medizin und des Zuse-Instituts Berlin. Es wird von der Deutschen Forschungsgemeinschaft gefördert.