Hasso-Plattner-InstitutSDG am HPI
Hasso-Plattner-InstitutDSG am HPI
Login
  • de
 

Alexander Albrecht

Understanding and Managing Extract-Transform-Load Systems

Ein Extract-Transform-Load (ETL) System ist eine visuelle Programmierumgebung die das Erstellen komplexer Workflows ermöglicht, um Daten aus einer oder mehreren Datenquellen zu extrahieren, zu transformieren und in eine Zieldatenbank zu laden. ETL Workflows werden in sogenannten Repositories gespeichert und regelmäßig ausgeführt, z.B. stündlich, täglich oder einmal in der Woche. Im Laufe eines komplexen Datenintegrationsprojektes werden hunderte dieser ETL Workflows von unterschiedlichen Entwicklern erstellt und in ETL Repositories gespeichert. Mit der Zeit werden die ETL Workflows oft umfangreicher, komplexer und damit immer schwieriger zu verstehen und zu beherrschen. In dieser Dissertation beschäftigen wir uns mit dem Problem, ETL Workflows für Entwickler verständlicher zu machen. Die Hauptbeiträge dieser Arbeit umfassen die Konzeption und Implementation eines IT-Systems für das ETL Management, sowie die Entwicklung neuer Techniken für das verbesserte Verständnis von ETL Workflows: "Schema Decryption" und "ETL Workflow Abstraktion".

"Schema Decryption" unterstüzt ETL Entwickler beim Verstehen kryptischer Bezeichner z.B. in Datenbank-Schemata oder ETL Transformationen. Unsere Methode nutzt die existierenden Verknüpfungen zwischen Attributen in ETL Workflows, um gute und verständliche "Decryptions" vorzuschlagen. "ETL Workflow Abstraktion" repräsentiert einen ETL Workflow mit mehreren Teil-Workflows und unterstützt somit ein besseres Verständnis. Der ETL Entwickler kann sich auf die für ihn relevanten Teile eines ETL Workflows konzentrieren und diese durch ein interaktives Zoom-in oder Zoom-out besser verstehen.