Hasso-Plattner-Institut25 Jahre HPI
Hasso-Plattner-Institut25 Jahre HPI
Login
 

Erkennen von Datenabhängigkeiten zur Datenintegration

Datenintegration hat das Ziel, Daten aus unterschiedlichen Quellen zu kombinieren und Nutzern eine einheitliche Sicht auf diese Daten zur Verfügung zu stellen. Diese Aufgabe ist gleichermaßen anspruchsvoll wie wertvoll. In meiner Dissertation stelle ich Algorithmen zum Erkennen von Datenabhängigkeiten vor, die Informationen zur Datenintegration liefern. Der Schwerpunkt der Arbeit liegt auf Inklusionsabhängigkeiten (inclusion dependency, IND) im Allgemeinen und auf der speziellen Form der Bedingten Inklusionsabhängigkeiten (conditional inclusion dependency, CIND): (i) INDs ermöglichen das Finden von Strukturen in einem gegebenen Schema. (ii) INDs und CINDs unterstützen das Finden von Referenzen zwischen Datenquellen. In meinem Vortrag motiviere ich die Ansätze der Dissertation mit Bezug auf die Domäne der Life Sciences Datenquellen und gebe einen Überblick über die Beiträge meiner Arbeit. Darüber hinaus stelle ich den SPIDER Algorithmus zum Finden von INDs im Detail vor. SPIDER analysiert große Datenquellen bis zu einer Größenordnung schneller als frühere Ansätze.