Im Rahmen dieses Projektseminars wird das Fussball-Portal www.ligageschichte.de an den Start gebracht. In diesem Portal werden Ergebnisse, Statistiken und Tabellenverläufe für jeden Club und alle Bundesliga-Saisons präsentiert. Eine Herausforderung ist dabei das automatische Annotieren der präsentierten Fakten mit Sprechblasen über wichtige Ereignisse und Trends. So sind beispielsweise Informationen über mögliches Verletzungspech, einen drohenden Trainerwechsel oder die jeweilige Mannschaftsleistung interessant.
Die notwendigen Fussballdaten sollen von den Teilnehmern im ersten Schritt aus einer Vielzahl unterschiedlicher Web-Quellen (Vereinsseiten, Newsquellen, Bundesliga-Archive, ...) extrahiert werden. Neben der Datenextraktion und Informationsvisualisierung wird im Seminar vorwiegend das Thema Data Mining mit den Schwerpunkten Named Entity Recognition und Topic/Trend Detection behandelt. Diese Techniken erlauben das automatisierte Entdecken von Ereignissen und Trends, z.B. in Newstexten oder Spielberichten. Die untenstehende Grafik veranschaulicht die Idee und zeigt den annotierten Tabellenverlauf des FC Energie Cottbus für die Bundesliga Saison 2000/01.
Die Teilnehmerzahl ist auf 12 Mitglieder beschränkt. Die technische Umsetzung erfolgt mit Java. Als Voraussetzung sind Java oder eine Skriptsprache (Perl, Python, Ruby, PHP) sehr vorteilhaft. Zudem sind Datenbankkenntnisse notwendig.
Lehrinhalte
- Named Entity Recognition
- Mustererkennung / Reguläre Ausdrücke
- Topic/Trend Detection
- Datenreinigung
- Statistische Analyse
- Informationsvisualisierung
Termine
Die Einführungsveranstaltung findet am 16. April 2008 um 9:15 Uhr in Raum A-1.1 statt.
| Thema | | Folien |
16.04.2008 | Einführung | Alexander Albrecht Frank Kaufer Sascha Szott | pdf |
07.05.2008 | Data Mining 101 | Frank Kaufer | pdf |
07.05.2008 | Named Entity Recognition | Alexander Kuscher Christoph Thiele | pdf |
14.05.2008 21.05.2008 | Clustering / Clusteranalyse | Sascha Szott | pdf (neu) |
Leistungserfassung
Die Bewertung der Seminarleistung zur Erreichung von 6 Credit Points erfolgt aufgrund der erbrachten Leistungen in den Bereichen Datenextraktion, Data-Mining und Informationsvisualisierung, sowie des Vortrags, der Präsentation der Ergebnisse und der schriftlichen Ausarbeitung.
Literaturempfehlungen
- Segaran. Kollektive Intelligenz. O'Reilly Verlag. 2008.
- Weiss, Indurkhya, Zhang. Text Mining: Predictive Methods for Analysing Unstructured Information. Springer. 2004.
- Chakrabarti. Mining the Web: Discovering Knowledge from Hypertext Data. Morgan Kaufmann. 2004.
- Han, Kamber. Data Mining: Concepts and Techniques. Morgan Kaufmann. Zweite Auflage. 2006.
Kontakt
Für weiterführende Informationen stehen Alexander Albrecht, Frank Kaufer und Sascha Szott zur Verfügung. Wir laden alle interessierten Studenten zum ersten Termin am 16. April ein. Die Seminar-Teilnehmer werden am 18. April bekannt gegeben.