Ausgangslage

Seit einiger Zeit bemüht sich die Semantic Web community um die Erzeugung und Bereitstellung von Linked Data – frei verfügbarer, semi-strukturierter und verknüpfter Daten. Ein prominentes Beispiel ist das DBPedia Projekt, welches strukturierte Anteile von Wikipedia-Seiten in Form riesiger Mengen an Daten-Tripeln zum Download zur Verfügung stellt. Die Firma IBM wird z.B. durch eine Vielzahl von Tripeln wie <IBM, location, Armonk> oder <IBM, keyPeople, Sam Palmisano> beschrieben. Die so entstehenden Daten sind zwar strukturiert, aber aufgrund ihrer Quelle sehr heterogen und fehlerbehaftet.

Das Ziel des Seminars ist die Entwicklung von Algorithmen und einem Werkzeug zur Erforschung solcher Linked Data Datenmengen. Ein Nutzer soll leicht und schnell ein Verständnis des untersuchten Datenbestandes erlangen. Zu diesem Zweck sind (mindestens) vier Probleme zu überwinden.

Erstens sind Daten über ein Objekt nicht in Tupel- oder Objektform gespeichert, sondern in Form von Tripeln. So sind beispielsweise Aggregationen über Eigenschaften (z.B. Anzahl Firmen pro Stadt) schwierig zu spezifizieren und aufwändig auszuführen. Anfragesprachen wie SPARQL oder JAQL, aber auch SQL können helfen.
Zweitens sind die Datenbestände meist riesig. Der Infoboxdatenbestand aus DBPedia enthält 30 Mio. Tripel, Freebase stellt über 200 Mio. Tripel zur Verfügung. Zur Beantwortung komplexer Anfragen können beispielsweise parallele Cloud-Plattformen wie Hadoop helfen.
Drittens beschreiben Datenbestände Objekte aus einer Vielfalt an Domänen. Informationen über Personen, Orte, Ereignisse, Firmen usw. treten vermengt auf und sind nicht leicht zu unterscheiden. Um einen Überblick über die Daten zu erhalten, ist es sinnvoll, Objekte zunächst nach ihrer Domäne zu klassifizieren, beispielsweise durch Betrachtung der sie beschreibenden Eigenschaften (Firmen haben ein „Gründungsjahr“, Personen hingegen einen „Geburtstag“).
Viertens sind die Datenbestände heterogen. Gleiche Eigenschaften erhalten unterschiedliche Namen, gleiche Realwelt-Werte haben unterschiedliche Ausprägungen. Beispielsweise werden in DBPedia Firmen mit über 6000 verschiedenen Eigenschaften beschrieben, die meisten darunter überlappen sich semantisch (companyName vs. Name vs. NameOfCompany, …) Diese Heterogenität aufzudecken und anzuzeigen ist eines der Ziele des Projekts.

Ziele

Analyse gängiger Data Profiling Algorithmen und Werkzeuge in Hinblick auf ihre Eignung für Linked Data.
(Weiter-)Entwicklung von Methoden und Algorithmen zum Profiling großer Mengen an Linked Data.
Entwicklung eines web-basierten Werkzeuges zum interaktiven Profiling von Linked Data.

Die Ergebnisse des Projekts sollen der interessierten community zur Verfügung gestellt werden. Der potenzielle impact ist groß!

Hier ein Screencast des Ergebnisses:

Betreuer

Prof. Dr. Felix Naumann
Christoph Böhm

Terminplanung

Regelmäßige Treffen Mittwochs 9:15 - 10:45

Datum	Thema	Sprecher	Folien
22.04.2009	Einführung	Felix Naumann	pdf
29.04.2009 ACHTUNG: 13:00 Uhr	DBPedia	Prof. Chris Bizer
06.05.2009	Themenvorstellung und -vergabe	alle
13.05.2009
20.05.2009
27.05.2009
03.06.2009
10.06.2009
17.06.2009
24.06.2009
01.07.2009
08.07.2009
15.07.2009
22.07.2009

Format

Anzahl Teilnehmer: Dieses Projektseminar ist auf sechs Teilnehmer beschränkt. Die vorläufige Anmeldung erfolgt per kurzer E-Mail direkt an mich. Ich gebe Ihnen rechtzeitig vor dem Seminar über die endgültige Teilnahme Bescheid.
Termine: Es finden mindestens zwei wöchentliche Treffen statt: Eines mit dem Seminarleiter zum Berichten über aktuelle Erkenntnisse und Ergebnisse und mindestens ein internes Treffen zum Austausch von Ideen und zur Koordination.
Umfang: 4SWS
Themengebiete:Systems Architecture, Systems Integration, Information Systems, Human Computer Interaction

Referenzen

http://www.ted.com/index.php/talks/tim_berners_lee_on_the_next_web.html
http://dbpedia.org/About
http://events.linkeddata.org/ldow2008/
http://events.linkeddata.org/ldow2009/