Hasso-Plattner-Institut
Prof. Dr. Felix Naumann
 

Beschreibung

Informationsintegration ist das Verschmelzen heterogener Informationen verschiedener Quellen zu einem homogenen Gesamtbild. Diese Vorlesung ist eine Einführung in dieses hochaktuelle Thema. Neben den Grundlagen der Informationsintegration, z.B. verteilten Datenbankarchitekturen und integrierende Anfragesprachen, lernen Sie Techniken der materialisierten und virtuellen Integration und deren Optimierung kennen. Darüber hinaus werden Spezialthemen, etwa Anfragebearbeitung, Ontologien, das Verborgene Web und Methoden des Data Cleansing, behandelt.

Weitere Informationen

  • Lectures will be given in English.
  • Ca. alle 2-3 Wochen wird der Termin als Übung gestaltet. 
  • Die Folien sind im HPI-internen Materialien-Ordner verfügbar und werden am Ende des Semsters hier veröffentlicht.
  • Die Vorlesung wird mittels tele-task aufgezeichnet.

Project Person Data Store - Selected Results

In this year's course, the students worked on an integration project. They integrated person data from different online sources such as Wikipedia, IMDb, or deutschland-api.de. After cleansing the data, the students created some interesting visualizations and mash-ups. Here are some of their results:

  • Journey of Life (hint: use slider) with Video!
    Stefan Wehrmeyer, Keven Richly with data from Johannes Dyck, Teppo Naakka, Nico Rehwaldt
  • National Expertise (hint: click pins)
    Tobias Rawald, Jan-Felix Schwarz
  • First Names per Decade
    Edgar Näther, Sven Wagner-Boysen
  • Do physicists live longer than mathematicians?
    Felix Elliger, Marcel Taeumel
  • The World's Bilionaires
    Ralf Gehrer, Benjamin Emde
  • DupoMemory
    Jan Brunnert, Richard Metzler
  • Wordle Clouds for Politicians, Musicians, and Soccer Players
    Falk Benke, Michael Karsch
  • Life time distribution before and after 1900
    Vitaliy Kats, Dmitry Zakharov

Aktuelles

  • See updated slides for 1st exercise in "Materialien" folder
  • 1. Übungstermin verschoben auf Di, 4.5., wegen Blockveranstaltung IT-Unternehmensarchitektur
  • The lecture is recorded via tele-task.

Veranstaltungsplan

Die Vorlesung findet 2x wöchentlich statt:

  • Dienstags 9:15 - 10:45 in HS 3
  • Donnerstags 11:00 - 12:30 in HS 2
TerminThema
Di 20.4.2010Introductions
Do 22.4.2010Distribution, autonomy, and heterogeneity

Di 27.4.2010

Distribution, autonomy, and heterogeneity
Do 29.4.2010Materialized and virtual integration

Di 04.5.2010

Exercise Phase 1: Extraction
(getauscht mit VL am Do, 29.4.)
Do 06.5.2010Architectures

Di 11.5.2010

Architectures
Do 13.5.2010Christi Himmelfahrt
Di 18.5.2010Exercise Phase 2: Integration
Do 20.5.2010Schema matching & mapping
Di 25.5.2010Schema matching & mapping
Do 27.5.2010Schema matching & mapping
Di 01.6.2010SchemaSQL
Do 03.6.2010Global-as-View query answering
Di 08.6.2010Exercise Phase 3: Cleansing
Do 10.6.2010fällt aus (wird nachgeholt)
Di 15.6.2010
ACHTUNG: HS1
Local-as-View query answering
Do 17.6.2010FutureSOC Symposium
Di 22.6.2010Local-as-View query answering
Do 24.6.2010
ACHTUNG: HS 3
über Seiteneingang
Bucket Algorithm
Di 29.6.2010Exercise Phase 4: Visualization
Do 01.7.2010Data Lineage
Di 06.7.2010Data Warehouses and ETL
Do 08.7.2010Information Quality
Di 13.7.2010
ACHTUNG: HS 2
Information Quality
Fr 16.7.2010
ACHTUNG: 9-10
ACHTUNG: HS 3, Seiteneingang
Exam preparation
Mo 19.7.2010
17 Uhr in HS 2
Gastvorlesung: Duplicate detection
Dr. Melanie Herschel (University of Tübingen)
Di 20.7.2010
ACHTUNG HS2
Exercise: Final presentations I
Do 22.7.2010Exercise: Final presentations II

Literatur

Ulf Leser und Felix Naumann: Informationsintegration, dpunkt Verlag, 2006.

Das Buch steht vielfach in der Bibliothek und bei uns am Lehrstuhl. Außerdem z.B. bei Amazon.de.

In der Vorlesung werde ich auf eine Vielzahl von Fachartikeln verweisen, die zur Vertiefung von Interesse sein können.

Es gibt zudem einige andere (deutsche und englische) Lehrbücher zu dem Thema, die ebenfalls als Studienbegleitung geeignet sind. Empfehlenswert sind

  • "Distributed Database Systems" von Özsu und Valduriez
  • "Föderierte Datenbanksysteme" von Conrad

Prüfung

Voraussetzung zur Zulassung zur Prüfung ist die erfolgreiche Bearbeitung der Übungsaufgaben.

Es finden mündliche Prüfungen am 27., 28. und 29.7.2010 statt. Bitte melden Sie sich rechtzeitig an: office-naumann(at)hpi.uni-potsdam.de (Sekretariat: Raum A-1.12)