Seit einiger Zeit bemüht sich die Semantic Web community um die Erzeugung und Bereitstellung von Linked Data – frei verfügbarer, semi-strukturierter und verknüpfter Daten. Ein prominentes Beispiel ist das DBPedia Projekt, welches strukturierte Anteile von Wikipedia-Seiten in Form riesiger Mengen an Daten-Tripeln zum Download zur Verfügung stellt. Die Firma IBM wird z.B. durch eine Vielzahl von Tripeln wie <IBM, location, Armonk> oder <IBM, keyPeople, Sam Palmisano> beschrieben. Die so entstehenden Daten sind zwar strukturiert, aber aufgrund ihrer Quelle sehr heterogen und fehlerbehaftet.
Das Ziel des Seminars ist die Entwicklung von Algorithmen und einem Werkzeug zur Erforschung solcher Linked Data Datenmengen. Ein Nutzer soll leicht und schnell ein Verständnis des untersuchten Datenbestandes erlangen. Zu diesem Zweck sind (mindestens) vier Probleme zu überwinden.
- Erstens sind Daten über ein Objekt nicht in Tupel- oder Objektform gespeichert, sondern in Form von Tripeln. So sind beispielsweise Aggregationen über Eigenschaften (z.B. Anzahl Firmen pro Stadt) schwierig zu spezifizieren und aufwändig auszuführen. Anfragesprachen wie SPARQL oder JAQL, aber auch SQL können helfen.
- Zweitens sind die Datenbestände meist riesig. Der Infoboxdatenbestand aus DBPedia enthält 30 Mio. Tripel, Freebase stellt über 200 Mio. Tripel zur Verfügung. Zur Beantwortung komplexer Anfragen können beispielsweise parallele Cloud-Plattformen wie Hadoop helfen.
- Drittens beschreiben Datenbestände Objekte aus einer Vielfalt an Domänen. Informationen über Personen, Orte, Ereignisse, Firmen usw. treten vermengt auf und sind nicht leicht zu unterscheiden. Um einen Überblick über die Daten zu erhalten, ist es sinnvoll, Objekte zunächst nach ihrer Domäne zu klassifizieren, beispielsweise durch Betrachtung der sie beschreibenden Eigenschaften (Firmen haben ein „Gründungsjahr“, Personen hingegen einen „Geburtstag“).
- Viertens sind die Datenbestände heterogen. Gleiche Eigenschaften erhalten unterschiedliche Namen, gleiche Realwelt-Werte haben unterschiedliche Ausprägungen. Beispielsweise werden in DBPedia Firmen mit über 6000 verschiedenen Eigenschaften beschrieben, die meisten darunter überlappen sich semantisch (companyName vs. Name vs. NameOfCompany, …) Diese Heterogenität aufzudecken und anzuzeigen ist eines der Ziele des Projekts.