www.ligageschichte.de

Im Rahmen dieses Projektseminars wird das Fussball-Portal www.ligageschichte.de an den Start gebracht. In diesem Portal werden Ergebnisse, Statistiken und Tabellenverläufe für jeden Club und alle Bundesliga-Saisons präsentiert. Eine Herausforderung ist dabei das automatische Annotieren der präsentierten Fakten mit Sprechblasen über wichtige Ereignisse und Trends. So sind beispielsweise Informationen über mögliches Verletzungspech, einen drohenden Trainerwechsel oder die jeweilige Mannschaftsleistung interessant.

Die notwendigen Fussballdaten sollen von den Teilnehmern im ersten Schritt aus einer Vielzahl unterschiedlicher Web-Quellen (Vereinsseiten, Newsquellen, Bundesliga-Archive, ...) extrahiert werden. Neben der Datenextraktion und Informationsvisualisierung wird im Seminar vorwiegend das Thema Data Mining mit den Schwerpunkten Named Entity Recognition und Topic/Trend Detection behandelt. Diese Techniken erlauben das automatisierte Entdecken von Ereignissen und Trends, z.B. in Newstexten oder Spielberichten. Die untenstehende Grafik veranschaulicht die Idee und zeigt den annotierten Tabellenverlauf des FC Energie Cottbus für die Bundesliga Saison 2000/01.

Die Teilnehmerzahl ist auf 12 Mitglieder beschränkt. Die technische Umsetzung erfolgt mit Java. Als Voraussetzung sind Java oder eine Skriptsprache (Perl, Python, Ruby, PHP) sehr vorteilhaft. Zudem sind Datenbankkenntnisse notwendig.

Lehrinhalte

Named Entity Recognition
Mustererkennung / Reguläre Ausdrücke
Topic/Trend Detection
Datenreinigung
Statistische Analyse
Informationsvisualisierung

Termine

Die Einführungsveranstaltung findet am 16. April 2008 um 9:15 Uhr in Raum A-1.1 statt.

	Thema		Folien
16.04.2008	Einführung	Alexander Albrecht Frank Kaufer Sascha Szott	pdf
07.05.2008	Data Mining 101	Frank Kaufer	pdf
07.05.2008	Named Entity Recognition	Alexander Kuscher Christoph Thiele	pdf
14.05.2008 21.05.2008	Clustering / Clusteranalyse	Sascha Szott	pdf (neu)

Leistungserfassung

Die Bewertung der Seminarleistung zur Erreichung von 6 Credit Points erfolgt aufgrund der erbrachten Leistungen in den Bereichen Datenextraktion, Data-Mining und Informationsvisualisierung, sowie des Vortrags, der Präsentation der Ergebnisse und der schriftlichen Ausarbeitung.

Literaturempfehlungen

Segaran. Kollektive Intelligenz. O'Reilly Verlag. 2008.
Weiss, Indurkhya, Zhang. Text Mining: Predictive Methods for Analysing Unstructured Information. Springer. 2004.
Chakrabarti. Mining the Web: Discovering Knowledge from Hypertext Data. Morgan Kaufmann. 2004.
Han, Kamber. Data Mining: Concepts and Techniques. Morgan Kaufmann. Zweite Auflage. 2006.

Kontakt

Für weiterführende Informationen stehen Alexander Albrecht, Frank Kaufer und Sascha Szott zur Verfügung. Wir laden alle interessierten Studenten zum ersten Termin am 16. April ein. Die Seminar-Teilnehmer werden am 18. April bekannt gegeben.

Tabellenverlauf - FC Energie Cottbus, Saison 2000/01