Das Hasso-Plattner-Institut bietet seinen Studierenden ein gebührenfreies und praxisnahes Informatikstudium an einem international renommierten Institut. Zum Studienangebot zählen der deutschlandweit einzigartige Bachelorstudiengang IT-Systems Engineering und die fünf Masterstudiengänge Cybersecurity, Data Engineering, Digital Health, IT-Systems Engineering und Software Systems Engineering.

Unsere Forschenden am HPI profitieren von einem inspirierenden wissenschaftlichen Umfeld sowie einer kollaborativen und inklusiven Arbeitsatmosphäre. So entstehen Erkenntnisse auf hohem wissenschaftlichen Niveau, die zum Wohl der Gesellschaft beitragen. Unsere wissenschaftliche Arbeit ist in Research Cluster strukturiert. Zudem kooperieren wir in zahlreichen Forschungsprogrammen mit wissenschaftlichen Institutionen, Unternehmen und öffentlichen Einrichtungen auf nationaler und internationaler Ebene.

Das Hasso-Plattner-Institut in Potsdam ist einzigartig in der deutschen Universitätslandschaft. Unterstützt durch Stifter Hasso Plattner und durch internationale Kooperationen bis hin zum Silicon Valley wächst das Angebot des Instituts stetig weiter. Erfahrt mehr über den Stifter, die Veranstaltungen und das Studium am HPI.

Auch für Schüler und Berufstätige bietet das Hasso-Plattner-Institut attraktive Bildungsangebote. Mit openHPI betreibt es eine eigene IT-Bildungsplattform mit kostenlosen Online-Kursen. Die Schülerakademie organisiert Informatik-Camps und Veranstaltungen für Schüler. Die HPI Academy bietet Berufstätigen Bildungsangebote im Design Thinking.

Der Pressebereich des Hasso-Plattner-Instituts versorgt Sie regelmäßig mit allen aktuellen Neuigkeiten, Infos zu unseren Social-Media-Kanälen, Kontaktdaten und ausführlichem Pressematerial.

Welcome to the website of Prof. Ariel Dora Stern, head of the research group Digital Health, Economics & Policy.

Gerardo Vitagliano

„Modellierung der Struktur von Tabellarische Dateien für die Datenaufbereitung“

Anwender müssen häufig komplexe Pipelines zur Aufbereitung von tabellarischen Dateien entwerfen, um diese verwalten und ihre Inhalte für nachgelagerte Aufgaben nutzen zu können. Die Komplexität solcher Pipelines ergibt sich aus verschiedenen Faktoren, u.a. (i) aus der Art der Aufbereitungsaufgaben, die oft explorativ oder ad hoc für bestimmte Datensätze durchgeführt werden, (ii) aus dem großen Repertoire an Werkzeugen, Algorithmen und Frameworks, die von den Anwendern beherrscht werden müssen, sowie (iii) aus der Menge, der Größe und der Verschiedenartigkeit der aufzubereitenden Dateien. Metadaten spielen eine grundlegende Rolle bei der Verringerung dieser Komplexität: Die Charakterisierung einer Datei hilft den Nutzern bei der Gestaltung von Datenaufbereitungs-Pipelines und ebnet darüber hinaus den Weg für Vorschläge, Automatisierung und Optimierung von Datenaufbereitungsaufgaben.

Bisherige Forschungsarbeiten in den Bereichen Data Profiling, Datenintegration und Datenbereinigung konzentrierten sich auf die Extraktion und Charakterisierung von Metadaten über die Inhalte der tabellarischen Dateien, d.h. über die Datensätze und Attribute von Tabellen. Inhalts-basierte Metadaten sind für die letzten Phasen einer Aufbereitungspipeline nützlich, z.B. für die Fehlerkorrektur, die Erkennung von Duplikaten oder die Normalisierung von Werten, aber sie erfordern eine korrekt geformte tabellarische Eingabe. Daher sind diese Metadaten für die frühen Phasen einer Aufbereitungspipeline, d.h. für das korrekte Parsen von Tabellen aus Dateien, nicht relevant. In dieser Dissertation konzentrieren wir uns die Struktur einer tabellarischen Datei nennen, d.h. die Menge der Zeichen in einer Datei, die keine Datenwerte darstellen, aber erforderlich sind, um den Inhalt der Datei zu analysieren und zu verstehen. Wir stellen drei verschiedene Ansätze zur Darstellung der Dateistruktur vor: eine explizite Darstellung auf der Grundlage kontextfreier Grammatiken, eine implizite Darstellung auf der Grundlage von Dateiähnlichkeiten und eine erlernte Darstellung auf der Grundlage von maschinellem Lernen.

In unserem ersten Ansatz verwenden wir die grammatikbasierte Darstellung, um eine Menge von über 3000 realen CSV-Dateien zu charakterisieren und mehrere strukturelle Probleme zu identifizieren, die dazu führen, dass Dateien vom CSV-Standard abweichen, z.B. durch inkonsistente Begrenzungszeichen oder dem Enthalten mehrere Tabellen in einer einzelnen Datei. Wir nutzen unsere Erkenntnisse aus realen Dateien und schlagen Pollack vor, einen Benchmark, der testet, wie gut Systeme unaufbereitete CSV-Dateien parsen. Wir berichten über unsere Experimente zur Verwendung von Pollack, in denen wir die Leistung von 16 realen Datenverwaltungssystemen bewerten.

Anschließend charakterisieren wir die Struktur von Dateien implizit, indem wir ein Maß für die strukturelle Ähnlichkeit von Dateipaaren definieren. Wir entwickeln einen neuartigen Algorithmus zur Berechnung dieses Maßes, der auf einer Graphen- basierten Darstellung des Dateiinhalts basiert. Wir nutzen diesen Algorithmus und schlagen Mondrian vor, ein grafisches System zur Unterstützung der Benutzer bei der Identifizierung von Layout Vorlagen in einem Datensatz, d.h. von Dateiklassen, die die gleiche Struktur aufweisen und daher mit der gleichen Pipeline aufbereitet werden können.

Schließlich stellen wir MaGRiTTE vor, eine neuartige Architektur, die selbst-überwachtes Lernen verwendet, um automatisch strukturelle Darstellungen von Dateien in Form von vektoriellen Einbettungen auf drei verschiedenen Ebenen zu lernen: auf Zellebene, auf Zeilenebene und auf Dateiebene. Wir experimentieren mit der Anwendung von strukturellen Einbettungen für verschiedene Aufgaben, nämlich Dialekterkennung, Zeilenklassifizierung und der Schätzung des Aufwands für die Datenaufbereitung.

Unsere experimentellen Ergebnisse zeigen, dass strukturelle Metadaten, die entweder explizit mit Hilfe von Parsing-Grammatiken identifiziert, implizit als Dateiähnlichkeit abgeleitet oder mit Machine-Learning Architekturen erlernt werden, von grundlegender Bedeutung für die Automatisierung verschiedener Aufgaben, die Skalierung der Aufbereitung auf große Mengen von Dateien und die Bereitstellung wiederholbarer Aufbereitungspipelines sind.

Neuer Master Computer Science am HPI

Ab dem Wintersemester 2024/25 startet am HPI der neue englischsprachige M.Sc. Computer Science. Dank der Track-Struktur könnt ihr euch auf den Bereich der Informatik spezialisieren, der am besten zu euch passt.

Jetzt bewerben!

Mach Dein Upgrade

Bewerbt euch jetzt bis zum 1. Juni für einen unserer Masterstudiengänge Computer Science, Digital Health und IT-Systems Engineering.

Jetzt bewerben!

Potsdamer Konferenz für Nationale CyberSicherheit

Am 19. und 20 Juni findet am Hasso-Plattner-Institut die Potsdamer Konferenz für Nationale CyberSicherheit statt.

Der HPI-Wissenspodcast

Prof. Ralf Herbrich und Prof. Christoph Meinel im HPI-Wissenspodcast "Neuland"

Fundiertes Wissen über die digitale Welt, anschaulich und verständlich erklärt – das bietet der Wissenspodcast „Neuland“ mit Expertinnen und Experten des HPI.

Jetzt reinhören unter: https://podcast.hpi.de

HPI Merch – jetzt online bestellbar

In unserem HPI Shop gibt es ab sofort fair produziertes und zertifiziertes Merchandise wie Pullover und T-Shirts aus Bio-Baumwolle, Taschen, Trinkflaschen, ein löschbares Notizbuch und weitere nachhaltige Accessoires.

Studieren am HPI

VOR DEM STUDIUM

Studienangebot
Alle Bachelor- und Masterstudiengänge des HPI im Überblick.
Studienbewerbung
Alle Informationen rund um das Bewerbungsverfahren und die benötigten Unterlagen für deine Bewerbung.
Studienberatung
Wir beraten Interessenten individuell über Inhalte und Aufbau unserer Studienangebote und das Auswahlverfahren.

IM STUDIUM

Lehrveranstaltungen
Alle Lehrveranstaltungen der einzelnen Studiengänge im Überblick.
Entrepreneurship
Ein Überblick zu allen HPI-Angeboten im Bereich Entrepreneurship.

NACH DEM STUDIUM

Alumni
Alle Informationen und Angebote für unsere Alumni auf HPI Connect.
Alumni-Jobportal
Das HPI interne Jobportal für den direkten Ausstausch zwischen Alumni und Unternehmen.
Stellen am HPI
Alle freien Stellen des HPI auf einen Blick

DIGITAL ENGINEERING FAKULTÄT

Termine

24.05.2024 | Reisestipendien für Informatikstudentinnen

Das HPI vergibt 14 Reisestipendien an Informatikstudentinnen. Bewirb Dich bis zum 15. April und reise zum Women in Tech … > Zum Artikel

24.05.2024 | Informatik-Olympiade 2024

Lust, deine IT-Skills unter Beweis zu stellen? Das HPI veranstaltet jedes Jahr zusammen mit dem BLiS die … > Zum Artikel

07.06.2024 | Hybrider Bachelorinformationstag

Nach dem Abitur die digitale Zukunft gestalten: Informiere Dich am 07. Juni über den Bachelor IT-Systems Engineering. > Zum Artikel

Aktuelle Pressemitteilungen

08.05.2024 | Hasso-Plattner-Institut feiert 25-jähriges Jubiläum

Im neuen Podcast sprechen Prof. Ralf Herbrich und Prof. Christoph Meinel über die Vergangenheit und Zukunft des HPI. > Zum Artikel

03.05.2024 | CHE Ranking: Top-Bewertungen für das Informatik-Studium am HPI

Mit seinem Studienangebot zählt das Hasso-Plattner-Institut deutschlandweit zu den Top-Adressen im Bereich Informatik. > Zum Artikel

24.04.2024 | Cybersicherheit im globalen Superwahljahr

Darüber diskutieren Expert:innen bei der Potsdamer Konferenz für Nationale CyberSicherheit am 19. und 20. Juni. > Zum Artikel

Research Cluster

Am Hasso-Plattner-Institut gibt es die folgenden Research Cluster:

Promotion am HPI

Informationen zu einer Promotion am HPI erhalten Sie hier.

Research Schools

Die HPI Research Schools für "Service-Oriented Systems Engineering" und "Data Science and Engineering" sind die Graduiertenschule des Hasso-Plattner-Instituts. Sie unterhalten Außenstellen in Südafrika, Israel, China und den USA.

Informationen zu den Research Schools

Future SOC Lab

Das Future SOC Lab des Hasso-Plattner-Instituts bietet externen Wissenschaftlern neueste Hard- und Software-Infrastrukturen kostenfrei zu Forschungszwecken.

Informationen zum Future SOC Lab

Ombudsperson

Ombudspersonen beraten als neutrale und qualifizierte Ansprechpersonen in Fragen guter wissenschaftlicher Praxis und in Verdachtsfällen wissenschaftlichen Fehlverhaltens.

Sie tragen, soweit möglich, zur lösungsorientierten Konfliktvermittlung bei.

Bei Fragen wenden Sie sich bitte an:

Prof. Dr. Tilmann Rabl

Tel.: +49 (0)331 5509-280
E-Mail: tilmann.rabl(at)hpi.de

Future SOC Lab

Das Future SOC Lab des Hasso-Plattner-Instituts bietet externen Wissenschaftlern neueste Hard- und Software-Infrastrukturen kostenfrei zu Forschungszwecken.

Informationen zum Future SOC Lab

Research Schools

Informationen zu den Research Schools

Digital Health Cluster

Das Digital Health Cluster (DHC) ist ein offenes Netzwerk für Wissenschaftler und Forschungseinrichtungen, die gemeinsam das Gesundheitssystem mit neuen Digital-Health-Anwendungen voranbringen und den Patienten stärken möchten.

Informationen zum Digital Health Cluster