Hasso-Plattner-Institut
Prof. Dr. Felix Naumann
 

Beschreibung

Die Integration von Datenquellen kann als dreistufiger Prozess modelliert werden, der Thema des Seminars sein wird. Zuerst müssen übereinstimmende Attribute gefunden werden, die in unterschiedlichen Quellen gleiche Dinge beschreiben. Das Ergebnis dieses Schrittes ist ein Schema Mapping, das benutzt werden kann, um die Quellen in eine einheitliche Repräsentation zu überführen (Umbenennung, Umstrukturierung von Attributen).

In einem zweiten Schritt müssen gleiche Objekte der realen Welt, die auf unterschiedliche Art und Weise in den Quellen beschrieben werden erkannt werden. Auf diese Weise, mit Hilfe von verschiedenen Techniken der Duplikaterkennung, werden unterchiedliche, möglicherweise inkonsistente Repräsentationen desselben Objektes der realen Welt gefunden.

In einem letzten Schritt müssen die unterschiedlichen Repräsentationen kombiniert und zu einer einheitlichen Repräsentation fusioniert werden, wobei die möglicherweise auftretenden Inkonsistenzen behandelt, um günstigsten Fall aufgelöst werden. Dieser letzte Schritt wird in der Literatur als Datenfusion bezeichnet.

Das Seminar beschäftigt sich mit den drei Hauptproblemen beim Betrieb eines solchen integrierenden Systems:

1. Wie können die unterschiedlich strukturierten Datenbanken zu einer einzigen Sicht kombiniert werden? Wie entdeckt man Übereinstmmungen in der Art und Weise wie Objekte in den Quellen repräsentiert werden?

2. Wie können Duplikate, also mehrfach repräsentierte Objekte in den Datenquellen gefunden werden?

3. Wie können die Widersprüche und Inkonsistenzen zwischen den unterschiedlichen Repräsentationen eines Objektes behandelt werden, die zwangsläufig auftreten?

Das Seminar richtet sich an Studenten im Masterstudiengang. Die Leistungserfassung besteht aus einem Seminarvortrag und einer Ausarbeitung zu einem ausgewählten Thema, und der Einarbeitung in ein weiteres, thematisch verwandtes Thema. (Paarungen werden noch bekannt gegeben.)

Anmeldung: durch Anwesenheit am ersten Termin.

 

Termine, Themen und Themenvergabe

ThemaLiteraturBearbeiterTerminFolien
Einführung, ThemenvergabeProf. Dr. Felix Naumann, Melanie Weis, Jens Bleiholder19.10.2006pdf, 2.2MB
Schema Matching
Cupid MatcherCupid Christian Tinnefeld30.11.2006--
DUMAS MatcherDUMASMatthias Weidlich30.11.2006--
 
Duplikaterkennung
Data Warehouse DuplikateDELPHIAlexander Küchler21.12.2006--
PIM DuplikaterkennungSEMEXAndreas Fahle21.12.2006--
 
Datenfusion
Feature basierte DatenfusionFusionplexKathleen Haucke25.1.2007

pdf, 130kb

 

 

Zurück zur Hauptseite