Beschreibung Im Rahmen dieses Projektseminars soll die Personensuchmaschine www.ProminentPeople.info entwickelt werden. Gefunden werden sollen Informationen zu Personen insbesondere der vollständige Name mit Alter und Titel. Das System nutzt dabei Newsfeeds, Blogs und Wikipedia und findet in diesen Quellen Eigennamen von Personen sowie Zusatzinformationen wie das Alter oder den Titel (Diplom/Doktor/Professor). In diesem Projektseminar wird insbesondere das Thema Named Entity Recognition (NER) behandet: Es sollen Techniken zum Erkennen von Eigennamen und anderen Named Entities in Texten entwickelt und implementiert werden. Dabei müssen die entwickelten Techniken u.a. Schwierigkeiten wie Mehrdeutigkeiten oder Abkürzungen in Texten bewältigen können. www.ProminentPeople.info soll in der ersten Version die Suche nach Personen ermöglichen. Das automatisierte Entdecken von Personenbeziehungen ist als Erweiterung geplant. Die Teilnehmerzahl ist auf 12 Mitglieder beschränkt. Die technische Umsetzung erfolgt mit Java. Lehrinhalte- Named Entity Recognition
- Mustererkennung / Reguläre Ausdrücke
- Duplikaterkennung
- Datenfusion
- Statistische Analyse
- Name Clouds
TermineDienstags 11:00 - 12:30 in A-1.1 Die Einführungsveranstaltung findet am 16. Oktober 2007 statt. | Thema
| | Folien
| 16.10.2007 | Einführung | Jana Bauckmann Alexander Albrecht | pdf | 30.10.2007 | SQL für DB2 | Alexander Kuscher Christoph Thiele | pdf | 06.11.2007 | Datenbankentwurf & Datenbankzugriff mit JDBC | Sven Wagner-Boysen Georg Köster | pdf ER Modell | 13.11.2007 | Reguläre Ausdrücke mit Java | Johannes Dyck Thomas Schulz | pdf | 15.11.2007, 17:30 Uhr, A-1.2 | Gastvortrag: Named Entity Recognition in der Bioinformatik | Prof. Ulf Leser Humboldt-Universität zu Berlin | pdf | 20.11.2007 | Crawling the Web | Felix Elliger Markus Steiner | pdf | 27.11.2007 | Gastvortrag: Navigating the Intranet with High Precision; Unstructured Information Management for Enterprise Data | Dr. Alexander Löser SAP AG, SAP Research Dresden | Teil 1 pdf Teil 2 pdf | 4.12.2007 | NER-Verfahren I | Matthias Jacob Max Plauth | pdf | 11.12.2007 | NER-Verfahren II | Ralf Gehrer Fabian Lindenberg | pdf |
Kontakt Für weiterführende Informationen stehen Jana Bauckmann und Alexander Albrecht zur Verfügung. Eine Anmeldung ist per mail an das Sekretariat von Prof. Naumann office-naumann(at)hpi.uni-potsdam.de möglich. Wir werden alle zum ersten Termin am 16. Oktober einladen, eine Nachrückerliste führen, und danach wird festgelegt, wer teilnimmt. |