Hasso-Plattner-Institut
Prof. Dr. Felix Naumann
 

Neue Entwicklungen im Bereich Informationssysteme

Im Rahmen dieses Forschungsseminars stellen Mitarbeiter und Studenten ihre Forschungsarbeiten auf diesem Gebiet vor. Studenten und Gäste sind herzlich eingeladen.

Allgemein

Wann: Montag, 15:15 - 16:45 Uhr

Wo: Raum A-1.2

Themen und Termine



TerminThema Vortragender
16.4.07 fällt aus -
23.4.07 VLDB Review Seminar
 
30.4.07 fällt aus -
7.5.07

fällt aus

14.5.07Reise- und Projektbericht: NetDB, ICDE und Wiesbaden

Alexander Albrecht
Felix Naumann
Jana Bauckmann
Melanie Weis

21.5.07Ontologie-basiertes Matching für Dienst-orientierte SystemeFrank Kaufer
28.5.07fällt aus
4.6.07SPRINT - Ongoing Work
Declarative XML Data Cleaning with XClean

Christoph Böhm
Melanie Weis

11.6.07FuSem - System zum Vergleich unterschiedlicher Arten der DatenfusionJens Bleiholder
Karsten Draba
18.6.07Schema and Ontology Matching with COMA++Sabine Massmann
25.6.07Viqtor - Visual Quality InspectorPaul Führing
2.7.07

Large-Scale Information Sharing  with Peer Data Management Systems. Terminverschiebung auf 14 - 15:30 Uhr.

Armin Roth
Matthias Weidlich
9.7.07Finden von Präfix- und Suffix-Inklusionsbeziehungen zwischen RDBMSJan Hegewald
16.7.07Development of Advanced Data Quality Methods for the IBM Information ServerAlexander Albrecht

Ontologie-basiertes Matching für Dienst-orientierte Systeme

In meinem Vortrag gebe ich einen Überblick über meine Masterarbeit, in welcher ich den hybriden Dienst-Matchmaker WSMO-MX entwickelt habe. Der Matchmaker vergleicht Anfragen und Angebote von Diensten und ermittelt deren syntaktische und semantische Ähnlichkeit mittels Metriken aus dem Gebiet des Text Information Retrieval und logischen Relationen auf Basis von Ontologien. Dienstanfragen und -angebote werden in F-Logic, einer Logik für deduktive objekt-orientierte Datenbanken, modelliert. In dem Vortrag gehe ich insbesondere auch auf die Relation von Ontologie-Matching zu Schema-Matching ein.

Declarative XML Data Cleaning with XClean (CAISE Probevortrag)

Data cleaning is the process of correcting anomalies in a data source, that may for instance be due to typographical errors, or duplicate representations of an entity. It is a crucial task in customer relationship management, data mining, and data integration.With the growing amount of XML data, approaches to effectively and efficiently clean XML are needed, an issue not addressed by existing data cleaning systems that mostly specialize on relational data.
We present XClean, a data cleaning framework specifically geared towards cleaning XML data. XClean´s approach is based on a set of cleaning operators, whose semantics is well-defined in terms of XML algebraic operators. Users may specify cleaning programs by combining operators by means of a declarative XClean/PL program, which is then compiled into XQuery. We describe XClean´s operators, language, and compilation approach, and validate its effectiveness through a series of case studies.

Schema and Ontology Matching with COMA++

In dem Vortrag wird der Prototyp COMA++ vorgestellt, welcher an der Universität Leipzig entwickelt wurde. COMA++ ist ein generisches Match System, das verschiedene Schema-Formate und Ontologien unterstützt. Der Prototyp bietet zur Berechnung von Korrespondenzen zwischen zwei Modellen verschiedene Matchstrategien und Matchalgorithmen an. Die neueste Erweiterung stellen zwei instanz-basierte Matchalgorithmen dar. In dem Vortrag werden zusätzlich Ergebnisse präsentiert, die auf dem OAEI-Benchmark (http://oaei.ontologymatching.org) basieren.

Finden von Präfix- und Suffix-Inklusionsbeziehungen zwischen RDBMS

Bisher gibt es kein standardisiertes Konstrukt um semantische Zusammenhänge zwischen verschiedenen Datenbanken zu beschreiben. Solche Zusammenhänge können Verweise von Entitäten einer Datenbank, etwa über Krankheiten, auf Entitäten einer anderen sein, die beispielsweise Proteine beschreibt. Daher müssen externe Verweise in Datenbanken nachträglich gefunden werden. Insbesondere bei der Integration von Datenquellen ist dies eine wichtige Aufgabe. Da praktisch jedes Attribut einer Datenquelle auf jedes andere jeder anderen zu integrierenden Datenquelle verweisen könnte, sind sehr effiziente Algorithmen erforderlich um eine automatische Erkennung überhaupt durchführbar zu machen. In diesem Vortrag wird eine Diplomarbeit als Teil des Projektes Aladin vorgestellt, die sich mit der automatischen Erkennung von Präfix- und Suffix-Inklusionsbeziehungen zwischen Life-Sciences-Datenbanken befasst.

Development of Advanced Data Quality Methods for the IBM Information Server

Der IBM Information Server wird im Fachgebiet Informationssysteme seit diesem Semester in Lehre und Forschung eingesetzt. Diese Softwareplattform umfasst Funktionalitäten zum Verständnis, Bereinigen, Umwandeln und Bereitstellen unabhängiger, heterogener Daten aus verschiedenen Quellen. Im Rahmen des Forschungsseminars wird es eine Einführung des IBM Information Servers geben. Es werden verschiedene Techniken vorgestellt, die parallel an Übungsrechnern nachvollzogen werden können. Das Demonstrieren von Techniken zur Erweitung des IBM Information Server um Methoden aus der Forschung bildet dabei den Schwerpunkt der Veranstaltung.

Vergangene Forschungsseminare