Informationsintegration
Beschreibung
Informationsintegration ist das Verschmelzen heterogener Informationen verschiedener Quellen zu einem homogenen Gesamtbild. Diese Vorlesung ist eine Einführung in dieses hochaktuelle Thema. Neben den Grundlagen der Informationsintegration, z.B. verteilten Datenbankarchitekturen und integrierende Anfragesprachen, lernen Sie Techniken der materialisierten und virtuellen Integration und deren Optimierung kennen. Darüber hinaus werden Spezialthemen, etwa Anfragebearbeitung, Ontologien, das Verborgene Web und Methoden des Data Cleansing, behandelt.
Weitere Informationen
- Lectures will be given in English.
- Ca. alle 2-3 Wochen wird der Termin als Übung gestaltet.
- Die Folien sind im HPI-internen Materialien-Ordner verfügbar und werden am Ende des Semsters hier veröffentlicht.
- Die Vorlesung wird mittels tele-task aufgezeichnet.
Project Person Data Store - Selected Results
In this year's course, the students worked on an integration project. They integrated person data from different online sources such as Wikipedia, IMDb, or deutschland-api.de. After cleansing the data, the students created some interesting visualizations and mash-ups. Here are some of their results:
- Journey of Life (hint: use slider) with Video!
Stefan Wehrmeyer, Keven Richly with data from Johannes Dyck, Teppo Naakka, Nico Rehwaldt - National Expertise (hint: click pins)
Tobias Rawald, Jan-Felix Schwarz - First Names per Decade
Edgar Näther, Sven Wagner-Boysen - Do physicists live longer than mathematicians?
Felix Elliger, Marcel Taeumel - The World's Bilionaires
Ralf Gehrer, Benjamin Emde - DupoMemory
Jan Brunnert, Richard Metzler - Wordle Clouds for Politicians, Musicians, and Soccer Players
Falk Benke, Michael Karsch - Life time distribution before and after 1900
Vitaliy Kats, Dmitry Zakharov
Aktuelles
- See updated slides for 1st exercise in "Materialien" folder
- 1. Übungstermin verschoben auf Di, 4.5., wegen Blockveranstaltung IT-Unternehmensarchitektur
- The lecture is recorded via tele-task.
Veranstaltungsplan
Die Vorlesung findet 2x wöchentlich statt:
- Dienstags 9:15 - 10:45 in HS 3
- Donnerstags 11:00 - 12:30 in HS 2
| Termin | Thema | |
|---|---|---|
| Di 20.4.2010 | Introductions | |
| Do 22.4.2010 | Distribution, autonomy, and heterogeneity | |
Di 27.4.2010 | Distribution, autonomy, and heterogeneity | |
| Do 29.4.2010 | Materialized and virtual integration | |
Di 04.5.2010 | Exercise Phase 1: Extraction (getauscht mit VL am Do, 29.4.) | |
| Do 06.5.2010 | Architectures | |
Di 11.5.2010 | Architectures | |
| Do 13.5.2010 | Christi Himmelfahrt | |
| Di 18.5.2010 | Exercise Phase 2: Integration | |
| Do 20.5.2010 | Schema matching & mapping | |
| Di 25.5.2010 | Schema matching & mapping | |
| Do 27.5.2010 | Schema matching & mapping | |
| Di 01.6.2010 | SchemaSQL | |
| Do 03.6.2010 | Global-as-View query answering | |
| Di 08.6.2010 | Exercise Phase 3: Cleansing | |
| Do 10.6.2010 | fällt aus (wird nachgeholt) | |
| Di 15.6.2010 ACHTUNG: HS1 | Local-as-View query answering | |
| Do 17.6.2010 | FutureSOC Symposium | |
| Di 22.6.2010 | Local-as-View query answering | |
| Do 24.6.2010 ACHTUNG: HS 3 über Seiteneingang | Bucket Algorithm | |
| Di 29.6.2010 | Exercise Phase 4: Visualization | |
| Do 01.7.2010 | Data Lineage | |
| Di 06.7.2010 | Data Warehouses and ETL | |
| Do 08.7.2010 | Information Quality | |
| Di 13.7.2010 ACHTUNG: HS 2 | Information Quality | |
| Fr 16.7.2010 ACHTUNG: 9-10 ACHTUNG: HS 3, Seiteneingang | Exam preparation | |
| Mo 19.7.2010 17 Uhr in HS 2 | Gastvorlesung: Duplicate detection Dr. Melanie Herschel (University of Tübingen) | |
| Di 20.7.2010 ACHTUNG HS2 | Exercise: Final presentations I | |
| Do 22.7.2010 | Exercise: Final presentations II |
Literatur
Ulf Leser und Felix Naumann: Informationsintegration, dpunkt Verlag, 2006.
Das Buch steht vielfach in der Bibliothek und bei uns am Lehrstuhl. Außerdem z.B. bei Amazon.de.
In der Vorlesung werde ich auf eine Vielzahl von Fachartikeln verweisen, die zur Vertiefung von Interesse sein können.
Es gibt zudem einige andere (deutsche und englische) Lehrbücher zu dem Thema, die ebenfalls als Studienbegleitung geeignet sind. Empfehlenswert sind
- "Distributed Database Systems" von Özsu und Valduriez
- "Föderierte Datenbanksysteme" von Conrad
Prüfung
Voraussetzung zur Zulassung zur Prüfung ist die erfolgreiche Bearbeitung der Übungsaufgaben.
Es finden mündliche Prüfungen am 27., 28. und 29.7.2010 statt. Bitte melden Sie sich rechtzeitig an: office-naumann@hpi.uni-potsdam.de (Sekretariat: Raum A-1.12)