Hasso-Plattner-Institut
Prof. Dr. Felix Naumann
 

www.ligageschichte.de

Im Rahmen dieses Projektseminars wird das Fussball-Portal www.ligageschichte.de an den Start gebracht. In diesem Portal werden Ergebnisse, Statistiken und Tabellenverläufe für jeden Club und alle Bundesliga-Saisons präsentiert. Eine Herausforderung ist dabei das automatische Annotieren der präsentierten Fakten mit Sprechblasen über wichtige Ereignisse und Trends. So sind beispielsweise Informationen über mögliches Verletzungspech, einen drohenden Trainerwechsel oder die jeweilige Mannschaftsleistung interessant.


Die notwendigen Fussballdaten sollen von den Teilnehmern im ersten Schritt aus einer Vielzahl unterschiedlicher Web-Quellen (Vereinsseiten, Newsquellen, Bundesliga-Archive, ...) extrahiert werden. Neben der Datenextraktion und Informationsvisualisierung wird im Seminar vorwiegend das Thema Data Mining mit den Schwerpunkten Named Entity Recognition und Topic/Trend Detection behandelt.  Diese Techniken erlauben das automatisierte Entdecken von Ereignissen und Trends, z.B. in Newstexten oder Spielberichten. Die untenstehende Grafik veranschaulicht die Idee und zeigt den annotierten Tabellenverlauf des FC Energie Cottbus für die Bundesliga Saison 2000/01.


Die Teilnehmerzahl ist auf 12 Mitglieder beschränkt. Die technische Umsetzung erfolgt mit Java. Als Voraussetzung sind Java oder eine Skriptsprache (Perl, Python, Ruby, PHP) sehr vorteilhaft. Zudem sind Datenbankkenntnisse notwendig.

Lehrinhalte

  • Named Entity Recognition
  • Mustererkennung / Reguläre Ausdrücke
  • Topic/Trend Detection
  • Datenreinigung
  • Statistische Analyse
  • Informationsvisualisierung

Termine

Die Einführungsveranstaltung findet am 16. April 2008 um 9:15 Uhr in Raum A-1.1 statt.

ThemaFolien
16.04.2008EinführungAlexander Albrecht
Frank Kaufer
Sascha Szott
pdf
07.05.2008Data Mining 101Frank Kauferpdf
07.05.2008Named Entity RecognitionAlexander Kuscher
Christoph Thiele
pdf

14.05.2008
21.05.2008

Clustering / ClusteranalyseSascha Szottpdf (neu)

Leistungserfassung

Die Bewertung der Seminarleistung zur Erreichung von 6 Credit Points erfolgt aufgrund der erbrachten Leistungen in den Bereichen Datenextraktion, Data-Mining und Informationsvisualisierung, sowie des Vortrags, der Präsentation der Ergebnisse und der schriftlichen Ausarbeitung.

Literaturempfehlungen

  • Segaran. Kollektive Intelligenz. O'Reilly Verlag. 2008.
  • Weiss, Indurkhya, Zhang. Text Mining: Predictive Methods for Analysing Unstructured Information. Springer. 2004.
  • Chakrabarti. Mining the Web: Discovering Knowledge from Hypertext Data. Morgan Kaufmann. 2004.
  • Han, Kamber. Data Mining: Concepts and Techniques. Morgan Kaufmann. Zweite Auflage. 2006.


Kontakt

Für weiterführende Informationen stehen Alexander Albrecht, Frank Kaufer und Sascha Szott zur Verfügung. Wir laden alle interessierten Studenten zum ersten Termin am 16. April ein. Die Seminar-Teilnehmer werden am 18. April bekannt gegeben.


Tabellenverlauf - FC Energie Cottbus, Saison 2000/01