Das Hasso-Plattner-Institut bietet seinen Studierenden ein gebührenfreies und praxisnahes Informatikstudium an einem international renommierten Institut. Zum Studienangebot zählen der deutschlandweit einzigartige Bachelorstudiengang IT-Systems Engineering und die fünf Masterstudiengänge Cybersecurity, Data Engineering, Digital Health, IT-Systems Engineering und Software Systems Engineering.

schließen

Unsere Forschenden am HPI profitieren von einem inspirierenden wissenschaftlichen Umfeld sowie einer kollaborativen und inklusiven Arbeitsatmosphäre. So entstehen Erkenntnisse auf hohem wissenschaftlichen Niveau, die zum Wohl der Gesellschaft beitragen. Unsere wissenschaftliche Arbeit ist in Research Cluster strukturiert. Zudem kooperieren wir in zahlreichen Forschungsprogrammen mit wissenschaftlichen Institutionen, Unternehmen und öffentlichen Einrichtungen auf nationaler und internationaler Ebene.

schließen

Das Hasso-Plattner-Institut in Potsdam ist einzigartig in der deutschen Universitätslandschaft. Unterstützt durch Stifter Hasso Plattner und durch internationale Kooperationen bis hin zum Silicon Valley wächst das Angebot des Instituts stetig weiter. Erfahrt mehr über den Stifter, die Veranstaltungen und das Studium am HPI.

schließen

Auch für Schüler und Berufstätige bietet das Hasso-Plattner-Institut attraktive Bildungsangebote. Mit openHPI betreibt es eine eigene IT-Bildungsplattform mit kostenlosen Online-Kursen. Die Schülerakademie organisiert Informatik-Camps und Veranstaltungen für Schüler. Die HPI Academy bietet Berufstätigen Bildungsangebote im Design Thinking.

Kurse

schließen

Der Pressebereich des Hasso-Plattner-Instituts versorgt Sie regelmäßig mit allen aktuellen Neuigkeiten, Infos zu unseren Social-Media-Kanälen, Kontaktdaten und ausführlichem Pressematerial.

schließen

Home

schließen

Application Security: Tools

schließen

Lan Jiang

„Discovering Metadata in Data Files“

Schätzungen zufolge verbringen Datenwissenschaftler bis zu 80% ihrer Zeit mit der Erkundung, Bereinigung und Umwandlung ihrer Daten. Ein Hauptgrund für diesen Aufwand ist das fehlende Wissen über die verwendeten Daten, die oft aus unterschiedlichen Quellen stammen und heterogene Strukturen aufweisen.

Als Mittel zur Beschreibung verschiedener Dateneigenschaften können Metadaten Datenwissenschaftlern dabei helfen, ihre Daten zu verstehen und aufzubereiten, und so wertvolle Zeit die Datenanalysen selbst sparen.

Metadaten sind jedoch nicht immer vorhanden: Zum Beispiel sind einige Dateiformate nicht in der Lage, sie zu speichern; Metadaten können aus Datenschutzgründen gelöscht worden sein; oder ältere Daten wurden möglicherweise von Systemen erzeugt, die nicht für die Speicherung und Verarbeitung von Metadaten konzipiert waren. Da Daten in einem noch nie dagewesenen Tempo produziert und in verschiedenen Formaten gespeichert werden, ist die manuelle Erstellung von Metadaten nicht nur unpraktisch, sondern auch fehleranfällig, so dass automatische Ansätze zur Metadatenerkennung erforderlich sind.

In dieser Arbeit konzentrieren wir uns auf die Erkennung von Metadaten in CSV-Dateien - einer Art von Klartextdateien, die, ähnlich wie Tabellenkalkulationen, verschiedene Arten von Inhalten an beliebigen Positionen enthalten können. Wir schlagen eine Taxonomie der Metadaten in CSV-Dateien vor und befassen uns speziell mit der Erkennung von drei verschiedenen Metadaten: Zeile und Zellensemantischer Typ, Aggregationen sowie Primärschlüssel und Fremdschlüssel.

Die Daten sind in CSV-Dateien ad-hoc organisiert und folgen keiner festen Struktur, wie sie von gängigen Datenverarbeitungsprogrammen angenommen wird. Die Erkennung der Struktur solcher Dateien ist eine Voraussetzung für die Extraktion von Informationen aus ihnen, die durch die Erkennung des semantischen Typs jeder Zeile oder jeder Zelle, wie z. B. Kopfzeile, Daten, abgeleitete Daten oder Fußnote, angegangen werden kann. Wir schlagen den Ansatz des überwachten Lernens, genannt „Strudel“ vor, um den strukturellen Typ von Zeilen und Zellen zu klassifizieren. CSV-Dateien können auch Aggregationen enthalten. Eine Aggregation stellt die arithmetische Beziehung zwischen einer numerischen Zelle und einer Reihe anderer numerischer Zellen dar. Der von uns vorgeschlagene „Aggrecol“-Algorithmus ist in der Lage, Aggregationen von fünf arithmetischen Funktionen in CSV-Dateien zu erkennen. Da stilistische Merkmale wie Schriftart und Zellhintergrundfarbe in CSV-Dateien nicht vorhanden sind, die von uns vorgeschlagenen Algorithmen die entsprechenden Probleme, indem sie nur die Merkmale Inhalt, Kontext und Berechnungen verwenden.

Die Speicherung einer relationalen Tabelle ist ebenfalls eine häufige Verwendung von CSV-Dateien. Primär- und Fremdschlüssel sind wichtige Metadaten für relationale Datenbanken, die bei Datenbankinstanzen, die als reine Textdateien gespeichert werden, normalerweise nicht vorhanden sind. Wir schlagen den „HoPF“-Algorithmus vor, um beide Constraints in relationalen Datenbanken ganzheitlich zu erkennen. Unser Ansatz ist in der Lage, echte Primär- und Fremdschlüssel von einer großen Menge an falschen eindeutigen Spaltenkombinationen und Einschlussabhängigkeiten zu unterscheiden, die von modernen Data-Profiling-Algorithmen erkannt werden können.

Neuer Master Computer Science am HPI

Ab dem Wintersemester 2024/25 startet am HPI der neue englischsprachige M.Sc. Computer Science. Dank der Track-Struktur könnt ihr euch auf den Bereich der Informatik spezialisieren, der am besten zu euch passt. Registriert euch jetzt, um nicht den Bewerbungsstart zu verpassen!

Hier geht's zur Anmeldung

Mach Dein Upgrade

Bewerbt euch jetzt bis zum 1. Juni für einen unserer Masterstudiengänge Computer Science*, Digital Health und IT-Systems Engineering.

Jetzt bewerben!

Noch Fragen? Dann schaut beim digitalen Masterinfotag am 22. April vorbei!

Hier geht's zur Anmeldung

*vorbehaltlich der Genehmigung durch das MWFK

Potsdamer Konferenz für Nationale CyberSicherheit

Am 19. und 20 Juni findet am Hasso-Plattner-Institut die Potsdamer Konferenz für Nationale CyberSicherheit statt.

Der HPI-Wissenspodcast

Fundiertes Wissen über die digitale Welt, anschaulich und verständlich erklärt – das bietet der Wissenspodcast „Neuland“ mit Expertinnen und Experten des HPI.

Jetzt reinhören unter: https://podcast.hpi.de

HPI Merch – jetzt online bestellbar

In unserem HPI Shop gibt es ab sofort fair produziertes und zertifiziertes Merchandise wie Pullover und T-Shirts aus Bio-Baumwolle, Taschen, Trinkflaschen, ein löschbares Notizbuch und weitere nachhaltige Accessoires.

Studieren am HPI

VOR DEM STUDIUM

Studienangebot
Alle Bachelor- und Masterstudiengänge des HPI im Überblick.
Studienbewerbung
Alle Informationen rund um das Bewerbungsverfahren und die benötigten Unterlagen für deine Bewerbung.
Studienberatung
Wir beraten Interessenten individuell über Inhalte und Aufbau unserer Studienangebote und das Auswahlverfahren.

IM STUDIUM

Lehrveranstaltungen
Alle Lehrveranstaltungen der einzelnen Studiengänge im Überblick.
Entrepreneurship
Ein Überblick zu allen HPI-Angeboten im Bereich Entrepreneurship.

NACH DEM STUDIUM

Alumni
Alle Informationen und Angebote für unsere Alumni auf HPI Connect.
Alumni-Jobportal
Das HPI interne Jobportal für den direkten Ausstausch zwischen Alumni und Unternehmen.
Stellen am HPI
Alle freien Stellen des HPI auf einen Blick

DIGITAL ENGINEERING FAKULTÄT

Termine

25.04.2024 | Girls' Day 2024

Zum Girls'Day am HPI in Potsdam lernen Schülerinnen, einen Minicomputer zu programmieren und warum das Informatikstudium … > Zum Artikel

25.04.2024 | HPI Alumni Spotlight

Das „HPI Alumni Spotlight“ ist zurück! Am 25. April werden drei HPI Absolvent:innen von Ihrem Werdegang nach dem … > Zum Artikel

16.05.2024 | HPI Connect Messe 2024

Die HPI Connect Messe ist das Networking-Event für IT-Unternehmen, Studierende und Alumni des Hasso-Plattner-Instituts. > Zum Artikel

Aktuelle Pressemitteilungen

24.04.2024 | Cybersicherheit im globalen Superwahljahr

Darüber diskutieren Expert:innen bei der Potsdamer Konferenz für Nationale CyberSicherheit am 19. und 20. Juni. > Zum Artikel

16.04.2024 | Spielerisch Cybersicherheit lernen

Ab sofort können Interessierte an den Potsdam Cyber Games teilnehmen, spannende Challenges lösen und Preise gewinnen. > Zum Artikel

12.04.2024 | HPI-Belegschaft stimmt für Institutsrat

Der Institutsrat ermöglicht mehr betriebliche Mitbestimmung auch für studentische Hilfskräfte und Stipendiat:innen. > Zum Artikel

Research Cluster

Am Hasso-Plattner-Institut gibt es die folgenden Research Cluster:

Promotion am HPI

Informationen zu einer Promotion am HPI erhalten Sie hier.

Research Schools

Die HPI Research Schools für "Service-Oriented Systems Engineering" und "Data Science and Engineering" sind die Graduiertenschule des Hasso-Plattner-Instituts. Sie unterhalten Außenstellen in Südafrika, Israel, China und den USA.

Informationen zu den Research Schools

Future SOC Lab

Das Future SOC Lab des Hasso-Plattner-Instituts bietet externen Wissenschaftlern neueste Hard- und Software-Infrastrukturen kostenfrei zu Forschungszwecken.

Informationen zum Future SOC Lab

Ombudsperson

Ombudspersonen beraten als neutrale und qualifizierte Ansprechpersonen in Fragen guter wissenschaftlicher Praxis und in Verdachtsfällen wissenschaftlichen Fehlverhaltens.

Sie tragen, soweit möglich, zur lösungsorientierten Konfliktvermittlung bei.

Bei Fragen wenden Sie sich bitte an:

Prof. Dr. Tilmann Rabl

Tel.: +49 (0)331 5509-280
E-Mail: tilmann.rabl(at)hpi.de

Future SOC Lab

Das Future SOC Lab des Hasso-Plattner-Instituts bietet externen Wissenschaftlern neueste Hard- und Software-Infrastrukturen kostenfrei zu Forschungszwecken.

Informationen zum Future SOC Lab

Research Schools

Informationen zu den Research Schools

Digital Health Cluster

Das Digital Health Cluster (DHC) ist ein offenes Netzwerk für Wissenschaftler und Forschungseinrichtungen, die gemeinsam das Gesundheitssystem mit neuen Digital-Health-Anwendungen voranbringen und den Patienten stärken möchten.

Informationen zum Digital Health Cluster