Hasso-Plattner-Institut
  
Hasso-Plattner-Institut
Prof. Dr. Felix Naumann
  
 

Beschreibung

Die Integration von Datenquellen kann als dreistufiger Prozess modelliert werden, der Thema des Seminars sein wird. Zuerst müssen übereinstimmende Attribute gefunden werden, die in unterschiedlichen Quellen gleiche Dinge beschreiben. Das Ergebnis dieses Schrittes ist ein Schema Mapping, das benutzt werden kann, um die Quellen in eine einheitliche Repräsentation zu überführen (Umbenennung, Umstrukturierung von Attributen).

In einem zweiten Schritt müssen gleiche Objekte der realen Welt, die auf unterschiedliche Art und Weise in den Quellen beschrieben werden erkannt werden. Auf diese Weise, mit Hilfe von verschiedenen Techniken der Duplikaterkennung, werden unterchiedliche, möglicherweise inkonsistente Repräsentationen desselben Objektes der realen Welt gefunden.

In einem letzten Schritt müssen die unterschiedlichen Repräsentationen kombiniert und zu einer einheitlichen Repräsentation fusioniert werden, wobei die möglicherweise auftretenden Inkonsistenzen behandelt, um günstigsten Fall aufgelöst werden. Dieser letzte Schritt wird in der Literatur als Datenfusion bezeichnet.

Das Seminar beschäftigt sich mit den drei Hauptproblemen beim Betrieb eines solchen integrierenden Systems:

1. Wie können die unterschiedlich strukturierten Datenbanken zu einer einzigen Sicht kombiniert werden? Wie entdeckt man Übereinstmmungen in der Art und Weise wie Objekte in den Quellen repräsentiert werden?

2. Wie können Duplikate, also mehrfach repräsentierte Objekte in den Datenquellen gefunden werden?

3. Wie können die Widersprüche und Inkonsistenzen zwischen den unterschiedlichen Repräsentationen eines Objektes behandelt werden, die zwangsläufig auftreten?

Das Seminar richtet sich an Studenten im Masterstudiengang. Die Leistungserfassung besteht aus einem Seminarvortrag und einer Ausarbeitung zu einem ausgewählten Thema, und der Einarbeitung in ein weiteres, thematisch verwandtes Thema. (Paarungen werden noch bekannt gegeben.)

Anmeldung: durch Anwesenheit am ersten Termin.

 

Termine, Themen und Themenvergabe

Thema Literatur Bearbeiter Termin Folien
Einführung, Themenvergabe Prof. Dr. Felix Naumann, Melanie Weis, Jens Bleiholder 19.10.2006 pdf, 2.2MB
Schema Matching
Cupid Matcher Cupid Christian Tinnefeld 30.11.2006 --
DUMAS Matcher DUMAS Matthias Weidlich 30.11.2006 --
 
Duplikaterkennung
Data Warehouse Duplikate DELPHI Alexander Küchler 21.12.2006 --
PIM Duplikaterkennung SEMEX Andreas Fahle 21.12.2006 --
 
Datenfusion
Feature basierte Datenfusion Fusionplex Kathleen Haucke 25.1.2007

pdf, 130kb

 

 

Zurück zur Hauptseite