Hasso-Plattner-Institut
  
Hasso-Plattner-Institut
Prof. Dr. Felix Naumann
  
 

fusem

  • Felix Naumann
  • Jens Bleiholder
  • Karsten Draba
  • Felix Naumann
  • Jens Bleiholder
  • Karsten Draba

 

Überblick

Overview

Datenfusion befasst sich mit der Fusion von Informationen über gleiche Objekte aus unterschiedlichen Datenquellen. Informationen über gleiche Objekte aus heterogenen Datenquellen können sich sowohl ergänzen als auch widersprechen. Ziel dieses Projektes ist es, dem Nutzer eines integrierenden Informationssystems eine Spezifikation der Lösung der (möglicherweise) auftretenden Datenkonflikte zu ermöglichen. Dies geschieht durch die Erweiterung der Anfragesprache SQL um ein entsprechendes Konstrukt, die "FUSE BY"-Anweisung. Darauf aufbauend wird im Weiteren die Optimierung solcher relationaler Fusionsanfragen betrachtet, sowie ein Tool entwickelt, mit dem man "FUSE BY" mit anderen Fusionstechniken vergleichen kann.

Data fusion is concerned with combining information on same real world objects from several data sources. Information in same real world objects from heterogeneous data sources may complement as well as contradict each other. The goal of this project is to enable the user of an integrated information system to specify the resolution of (eventually) occurring data level conflicts. This is done by extending SQL with a special construct, the "FUSE BY" statement. Based on that, we look at the optimization of relational fusion queries and develop a tool that is used to compare "FUSE BY" to other data fusion techniques.

Fusionskomponente in HumMer

The data fusion component in the HumMer system

Der letzte Schritt in einem Datenintegrationsprozess, nachdem Schemamatching und Duplikaterkennung durchgeführt worden sind, ist das Zusammenführen unterschiedlicher, sich u.U. widersprechender, Repräsentationen ein und desselben Objektes in eine einzige konsistente Repräsentation. Diesen Schritt bezeichnet man als Datenfusion. Er zielt darauf ab, die in den Attributwerten vorhandenen Unsicherheiten und Widersprüche zu entfernen.

Im Rahmen des HumMer Systems wurde eine Datenfusionskomponente implementiert. Diese erlaubt es, spaltenweise Konfliktlösungsfunktionen auf Daten anzuwenden. Die Funktionen werden auf Gruppen von Tupeln angewendet, die jeweils ein Objekt repräsentieren. Am Ende wird dem Nutzer eine einzige, fusionierte, Repräsentation pro Objekt präsentiert. Die Fusionskomponente erlaubt es weiterhin durch Ausnutzung von Lineage-Information Konflikte in den Daten farblich hervorzuheben, wie auf dem Bild rechts zu sehen ist.

Weitere Informationen liefert die Webseite zum HumMer-Projekt.

Data fusion is the final step of a typical data integration process, after schematic conflicts have been overcome and after duplicates have been correctly identified.  During this step, multiple, possibly contradicting representations of one and the same real world object are combined into one single consistent representation. Data fusion aims at removing uncertainties and contradictions that are present among attribute values.

We implemented a data fusion component as part of the HumMer system. This component allows to specify and apply conflict resolution functions per column. The functions are apply to groups of tuples which each represent an object. At the end, the system shows the user only one single, fused, representation per object. The fusion component also allows to mark conflicts in the data by different colors, using lineage information. This could be seen on the image to the right.

Please find more information on the HumMer project page.

Vergleich von Fusionssemantiken mittels FuSem

Comparing Data Fusion Semantics with FuSem

Neben der von uns entwickelten "FUSE BY"-Anweisung gibt es in der Literatur noch eine Reihe weiterer Vorschläge Daten zu fusionieren, die alle über ihre eigenen Vor- und Nachteile verfügen. Mit dem FuSem-Sytem (abkürzend für FusionsSemantiken) geben wir dem Nutzer die Möglichkeit mehrere dieser unterschiedlichen Arten Daten zu fusionieren auszuprobieren. Zu den momentan zur Verfügung stehenden Techniken stehen neben "FUSE BY" rein SQL basierte Techniken (wie z.B. outer union, outer join), der MERGE Operator, der MatchJoin, sowie der ConQuer-Ansatz aus dem Bereich des consistent query answering.

Neben der - falls möglich auch optimierten - Ausführung dieser Fusionstechniken bildet der Vergleich unterschiedlicher Fusionsergebnisse einen weiteren Schwerpunkt dieses Systems. Dies geschieht zum einen durch den tabellarischen Vergleich zweier oder mehrerer Fusionsergebnisse, zum anderen aber auch durch eine graphisch Ansicht. Mit Hilfe von Venndiagrammen werden gleiche und unterschiedliche Fusionsergebnisse dargestellt. Die graphische Darstellung vereinfacht es einem Nutzer unterschiedliche Fusionssemantiken zu testen, zu vergleichen und schlußendlich die für die aktuelle Aufgabe geeignetste Art der Fusion zu finden.

Weitere Informationen liefert die Webseite zum FuSem-Projekt.

Besides the "FUSE BY" statement developed within our research group, a couple of other approaches to fuse data can be found in the literature, each one with their respective advantages and disadvantages. With the FuSem (abbreviatory for fusion semantics) we allow the user to test several of these different ways of fusing data. Currently, we support - in addition to purely SQL based techniques (such as outer union, outer join) - the MERGE operator, MatchJoin and the ConQuer approach from the field of consistent query answering.

Besides the - if possible, optimized - execution of these data fusion techniques, a second focus of the system is the comparison of different fusion results that have been produced using the techniques. This is done by comparing two or more results directly (comparing the tables), but also graphically. Same and different fusion results are illustrated using Venn diagram. This graphical view simplifies testing and comparing multiple and finally choosing one way of fusing the data, the most appropriate way for the task at hand.

Please find more information on the FuSem project page.

Veröffentlichungen

Publications

  • <b>Data Fusion</b>. Jens Bleiholder und Felix Naumann. <i>ACM Computing Surveys 41(1).</i> Dezember 2008.
  • <b>FuSem - Exploring Different Semantics of Data Fusion (demo)</b>. Jens Bleiholder, Karsten Draba und Felix Naumann. <i>VLDB 2007</i>. Wien, Österreich. September 2007.
  • <b>Data Fusion in Three Steps: Resolving Schema, Tuple, and Value Inconsistencies</b>. Felix Naumann, Alexander Bilke, Jens Bleiholder und Melanie Weis. <i>IEEE Data Engineering Bulletin 29(2):21-31</i>, Juni 2006.
  • <b>Conflict Handling Strategies in an Integrated Information System</b>. Jens Bleiholder und Felix Naumann. In <i>WWW Workshop in Information Integration on the Web (IIWeb)</i>. Edinburgh, UK. Mai 2006.
  • <b>Declarative Data Fusion - Syntax, Semantics and Implementation</b>. Jens Bleiholder und Felix Naumann. <i>ADBIS 2005</i>. Tallin, Estland. September 2005. In: LNCS 3631, pp. 58-73, &copy; Springer-Verlag
  • <b>Automatic Data Fusion with HumMer (demo)</b>. Alexander Bilke, Jens Bleiholder, Christoph Böhm, Karsten Draba, Felix Naumann und Melanie Weis. <i>VLDB 2005</i>. Trondheim, Norwegen. September 2005.
  • <b>FUSE BY: Syntax und Semantik zur Informationsfusion in SQL</b>. Jens Bleiholder und Felix Naumann. <i>Informatik 2004 Workshop über Dynamische Informationsfusion</i>. Ulm, Deutschland. September 2004.
  • <b>Data Fusion</b>. Jens Bleiholder and Felix Naumann. <i>ACM Computing Surveys 41(1).</i> Dezember 2008.
  • <b>FuSem - Exploring Different Semantics of Data Fusion (demo)</b>. Jens Bleiholder, Karsten Draba and Felix Naumann. <i>VLDB 2007</i>. Vienna, Austria. September 2007.
  • <b>Data Fusion in Three Steps: Resolving Schema, Tuple, and Value Inconsistencies</b>. Felix Naumann, Alexander Bilke, Jens Bleiholder and Melanie Weis. <i>IEEE Data Engineering Bulletin 29(2):21-31</i>, June 2006.
  • <b>Conflict Handling Strategies in an Integrated Information System</b>. Jens Bleiholder and Felix Naumann. In <i>WWW Workshop in Information Integration on the Web (IIWeb)</i>. Edinburgh, UK. May 2006.
  • <b>Declarative Data Fusion - Syntax, Semantics and Implementation</b>. Jens Bleiholder and Felix Naumann. <i>ADBIS 2005</i>. Tallin, Estonia. September 2005. In: LNCS 3631, pp. 58-73, &copy; Springer-Verlag
  • <b>Automatic Data Fusion with HumMer (demo)</b>. Alexander Bilke, Jens Bleiholder, Christoph Böhm, Karsten Draba, Felix Naumann and Melanie Weis. <i>VLDB 2005</i>. Trondheim, Norway. September 2005.
  • <b>FUSE BY: Syntax und Semantik zur Informationsfusion in SQL</b>. Jens Bleiholder and Felix Naumann. <i>Informatik 2004 Workshop über Dynamische Informationsfusion</i>. Ulm, Germany. September 2004.