Hasso-Plattner-Institut
  
Hasso-Plattner-Institut
Prof. Dr. Felix Naumann
  
 

www.ProminentPeople.info

Beschreibung

Im Rahmen dieses Projektseminars soll die Personensuchmaschine www.ProminentPeople.info entwickelt werden. Gefunden werden sollen Informationen zu Personen insbesondere der vollständige Name mit Alter und Titel. Das System nutzt dabei Newsfeeds, Blogs und Wikipedia und findet in diesen Quellen Eigennamen von Personen sowie Zusatzinformationen wie das Alter oder den Titel (Diplom/Doktor/Professor).

In diesem Projektseminar wird insbesondere das Thema Named Entity Recognition (NER) behandet: Es sollen Techniken zum Erkennen von Eigennamen und anderen Named Entities in Texten entwickelt und implementiert werden. Dabei müssen die entwickelten Techniken u.a. Schwierigkeiten wie Mehrdeutigkeiten oder Abkürzungen in Texten bewältigen können.

www.ProminentPeople.info soll in der ersten Version die Suche nach Personen ermöglichen. Das automatisierte Entdecken von Personenbeziehungen ist als Erweiterung geplant.

Die Teilnehmerzahl ist auf 12 Mitglieder beschränkt. Die technische Umsetzung erfolgt mit Java.

Lehrinhalte
  • Named Entity Recognition
  • Mustererkennung / Reguläre Ausdrücke
  • Duplikaterkennung
  • Datenfusion
  • Statistische Analyse
  • Name Clouds
Termine

Dienstags 11:00 - 12:30 in A-1.1
Die Einführungsveranstaltung findet am 16. Oktober 2007 statt.

  Thema

Folien

16.10.2007 Einführung Jana Bauckmann
Alexander Albrecht
pdf
30.10.2007 SQL für DB2 Alexander Kuscher
Christoph Thiele
pdf
06.11.2007 Datenbankentwurf & Datenbankzugriff mit JDBC Sven Wagner-Boysen
Georg Köster
pdf
ER Modell
13.11.2007 Reguläre Ausdrücke mit Java Johannes Dyck
Thomas Schulz
pdf
15.11.2007,
17:30 Uhr, A-1.2
Gastvortrag:
Named Entity Recognition
in der Bioinformatik
Prof. Ulf Leser
Humboldt-Universität zu Berlin
pdf
20.11.2007 Crawling the Web Felix Elliger
Markus Steiner
pdf
27.11.2007 Gastvortrag:
Navigating the Intranet with High Precision;
Unstructured Information Management for Enterprise Data
Dr. Alexander Löser
SAP AG, SAP Research Dresden
Teil 1 pdf
Teil 2 pdf
4.12.2007 NER-Verfahren I Matthias Jacob
Max Plauth
pdf
11.12.2007 NER-Verfahren II Ralf Gehrer
Fabian Lindenberg
pdf

 

Kontakt

Für weiterführende Informationen stehen Jana Bauckmann und Alexander Albrecht zur Verfügung. Eine Anmeldung ist per mail an das Sekretariat von Prof. Naumann office-naumann@hpi.uni-potsdam.de möglich. Wir werden alle zum ersten Termin am 16. Oktober einladen, eine Nachrückerliste führen, und danach wird festgelegt, wer teilnimmt.