HPI auf der ICDE prominent vertreten - Best Paper Award für HPI-Professor Tilmann Rabl

Die 37. IEEE International Conference on Data Engineering (ICDE) zeichnete am 21. April 2021 das Paper "Efficient Control Flow in Dataflow Systems: When Ease-of-Use Meets High Performance" mit dem ICDE Best Paper Award aus. Professor Tilmann Rabl, Leiter des Fachgebiets Data Engineering Systems am Hasso Plattner Institut (HPI), wurde mit Kollegen der TU Berlin und der Firma Snowflake im Rahmen der Award Session der Konferenz für seine Forschungsarbeit geehrt.

HPI-Prof. Dr. Tilmann Rabl — Prof. Dr. Tilmann Rabl leitet am HPI das Fachgebiet Data Engineering Systems

Die jährlich stattfindende ICDE ist die führende Datenbankkonferenz des Institute of Electrical and Electronics Engineers (IEEE) und befasst sich mit Forschungsfragen zu Design, Aufbau, Verwaltung und Evaluierung fortschrittlicher datenintensiver Systeme und Anwendungen. Gemeinsam mit Gábor E. Gévay, Sebastian Breß, Lorand Madai-Tahy, Jorge-Arnulfo Quiané-Ruiz und Volker Markl erforscht Tilmann Rabl, wie Kontrollflussanweisungen, mittels Implementierungen iterativer Algorithmen, bei Datenanalyseaufgaben effizient und einfach bedienbar eingesetzt werden können.

Der Bedarf seitens der Wirtschaft ist hoch. Unternehmen wollen die großen Datenmengen, auf denen sie sitzen, für die Optimierung ihrer Produkte, Dienstleistungen und ihr Marketing gewinnbringend analysieren und nutzen. Um beispielsweise ein gesamtes Netzwerk von Benutzerinteraktionen daraufhin zu untersuchen, wie Produkte von Konsumenten genutzt werden, bedarf es einer Datenanalyse, die große Datenmengen (Big Data) bestmöglich be- und verarbeiten kann. Damit die gewünschte Skalierbarkeit erreicht wird, implementieren Entwickler Datenanalyseaufgaben in der Regel in verteilten Datenflusssystemen, wie Spark und Flink. Jedoch weisen beide Systeme Nachteile auf: Entweder werden suboptimale Leistungen erzielt oder sie sind umständlich zu bedienen. Infolgedessen müssen Entwickler meist verschiedene und aufwendige Workarounds aufsetzen, um ihre Aufgaben mit Kontrollflussanweisungen effizient ausführen zu können.

In ihrer Veröffentlichung stellen die Wissenschaftler ein Verfahren vor, mit dem Kontrollflussanweisungen, wie sie in Data-Science-Anwendungen vorkommen, in Datenflussprogramme umgewandelt werden können, ohne dabei an Effizienz zu verlieren. Mitos, ein System, das das Beste aus beiden Welten kombiniert, soll die Lösung sein: Es erreicht eine hohe Leistung und weist dabei eine hohe Benutzerfreundlichkeit auf. „Unsere experimentelle Auswertung zeigt, dass die Leistung von Mitos besser ist als bei Systemen, die für jeden Iterationsschritt neue Datenfluss-Jobs starten“, so Prof. Rabl. Es sei bemerkenswert, dass Mitos bis zu 10,5 Mal schneller als Apache Flink ist, das nur über ein komplexes Iterationskonzept verfügt, während es bis zu 45 Mal schneller als Apache Spark ist, bei gleicher Benutzerfreundlichkeit.

Seit über drei Jahrzehnten ist die IEEE ICDE ein führendes Forum für Forscher, Praktiker, Entwickler und Anwender, um innovative Ideen zu erforschen und Techniken, Werkzeuge und Erfahrungen auszutauschen. Dieses Jahr war das HPI auf der Konferenz mit vielen weiteren wissenschaftlichen Beiträgen prominent vertreten:

RESEARCH TRACK FULL PAPERS

Efficient Control Flow in Dataflow Systems: When Ease-of-Use Meets High Performance. Gábor E. Gévay (Technische Universität Berlin)*; Tilmann Rabl (HPI, University of Potsdam); Sebastian Bress (TU Berlin); Lorand Madai-Tahy (TU Berlin); Jorge Arnulfo Quiane Ruiz (TU Berlin); Volker Markl (DFKI)
Schema Discovery using Similarity Search in a Table Corpus. Hazar Harmouch (Hasso Plattner Institute)*; Thorsten Papenbrock (Hasso Plattner Institute); Felix Naumann (Hasso Plattner Institute)
Structured Object Matching Across Web Page Revisions. Tobias Bleifuß (Hasso Plattner Institute)*; Leon Bornemann (Hasso Plattner Institute); Dmitri V. Kalashnikov (AT&T Labs Research); Felix Naumann (Hasso Plattner Institute); Divesh Srivastava (AT&T Labs Research)

RESEARCH TRACK SHORT PAPERS

Joint Index, Sorting, and Compression Optimization for Memory-Efficient Spatio-Temporal Data Management. Keven Richly (Hasso Plattner Institute )*; Rainer Schlosser (Hasso Plattner Institute); Martin Boissier (Hasso Plattner Institute)
Memory-Efficient Database Fragment Allocation for Robust Load Balancing when Nodes Fail. Stefan Halfpap (Hasso Plattner Institute)*; Rainer Schlosser (Hasso Plattner Institute)

TUTORIALS

Evaluation of Duplicate Detection Algorithms: From Quality Measures to Test Data Generation. Fabian Panse (Universität Hamburg); Felix Naumann (Hasso Plattner Institute)

DEMO TRACK

A Cockpit for the Development and Evaluation of Autonomous Database Systems. Jan Kossmann (Hasso Plattner Institute)*; Martin Boissier (Hasso Plattner Institute); Alexander Dubrawski (Hasso Plattner Institute); Fabian Heseding (Hasso Plattner Institute); Caterina Mandel (Hasso Plattner Institute); Udo Pigorsch (Hasso Plattner Institute); Max Schneider (Hasso Plattner Institute); Til Schniese (Hasso Plattner Institute); Mona Sobhani (Hasso Plattner Institute); Petr Tsayun (Hasso Plattner Institute); Katharina Wille (Hasso Plattner Institute); Michael Perscheid (Hasso Plattner Institute); Matthias Uflacker (SAP); Hasso Plattner (Hasso Plattner Institute)

TKDE POSTERS TRACK

LogStore: A Workload-aware, Adaptable Key-Value Store on Hybrid Storage Systems. Prashanth Menon (Carnegie Mellon Universiy); Thamir Qadah (Purdue University); Tilmann Rabl (University of Potsdam); Mohammad Sadoghi (University of California, Davis); Hans-Arno Jacobsen (University of Toronto)*
Discovering Relaxed Functional Dependencies based on Multi-attribute Dominance. Loredana Caruccio (University of Salerno)*; Vincenzo Deufemia (University of Salerno); Felix Naumann (Hasso Plattner Institute); Giuseppe Polese (University of Salerno)