Textmining

Proseminar Informationssysteme

In diesem Seminar stellen Studenten einander wichtige wissenschaftliche Arbeiten aus dem Bereich der Informationssysteme vor. Neben dem Kennenlernen spannender Systeme und Algorithmen üben die Studenten das Lesen einer wissenschaftlichen Arbeit, das Halten wissenschaftlicher Vorträge sowie das Schreiben wissenschaftlicher Texte.

Termine

Die Teilnehmerzahl ist auf 12 beschränkt.

Termine: Mittwochs, 9:15 Uhr in A.1-1

Datum	Thema	Vortragender
15.10.	HPI Vollversammlung in HS 1
22.10.	Themenvorstellung	Alle Betreuer
29.10.	Wissenschaftliches Lesen	Felix Naumann
12.11.	Kurzvorträge	Studenten
19.11.	Wissenschaftliche Vorträge	Felix Naumann
10.12.	Vortragsblock 1	Studenten
17.12.	Vortragsblock 2	Studenten
7.1.	Vortragsblock 3	Studenten
14.1.	Wissenschaftlich Schreiben	Felix Naumann
21.1.	LaTeX Einführung	Felix Naumann
7.3.2015 22 Uhr	Abgabe Ausarbeitungen	Studenten

Dazwischen: Regelmäßige Treffen mit dem Betreuer

Themen

Die folgenden Themen werden an jeweils einen Studenten vergeben und vom jeweiligen Mitarbeiter betreut.

Dr. Ralf Krestel

Information Retrieval: Sergey Brin, Lawrence Page: The Anatomy of a Large-Scale Hypertextual Web Search Engine. Computer Networks 30(1-7): 107-117 (1998)
Recommender Systems: Jonathan L. Herlocker, Joseph A. Konstan, Al Borchers, John Riedl: An Algorithmic Framework for Performing Collaborative Filtering. SIGIR 1999: 230-237

Maximilian Jenders

Information Retrieval: Ilaria Bordino, Yelena Mejova, Mounia Lalmas: Penguins in sweaters, or serendipitous entity search on user-generated content. CIKM '13:109-118.
Social Network Analysis: Cristian Danescu-Niculescu-Mizil, Robert West, Dan Jurafsky, Jure Leskovec, Christopher Potts: No country for old members: user lifecycle and linguistic change in online communities. WWW '13: 307-318.

Thorsten Papenbrock

Data Profiling: Peter A. Flach and Iztok Savnik. 1999. Database dependency discovery: a machine learning approach. AI Commun. 12, 3 (August 1999), 139-160.
Data Profiling: Gurmeet Singh Manku and Rajeev Motwani. 2002. Approximate frequency counts over data streams. In Proceedings of the 28th international conference on Very Large Data Bases (VLDB '02). VLDB Endowment 346-357.

Anja Jentzsch

Web Data: Michael J. Cafarella, Alon Y. Halevy, Daisy Zhe Wang, Eugene Wu, Yang Zhang: WebTables: exploring the power of tables on the web. PVLDB 1(1): 538-549 (2008).
Entity Matching: M. Hernandez and S. Stolfo. Real-world data is dirty: data cleansing and the merge/purge problem. Journal of Data Mining and Knowledge Discovery, 1(2), 1998.

Zhe Zuo (englische Betreuung)

Text Mining: Rada Mihalcea and Andras Csomai. Wikify!: linking documents to encyclopedic knowledge. CIKM '07. 233-242.
Computer Linguistics: Bunescu, Razvan C., and Marius Pasca. Using Encyclopedic Knowledge for Named entity Disambiguation. EACL. Vol.6. 2006.

Sebastian Kruse

Data Profiling: Ykä Huhtala, Juha Kärkkäinen, Pasi Porkka, and Hannu Toivonen. TANE: An efficient algorithm for discovering functional and approximate dependencies. The computer journal 42, no. 2 (1999): 100-111.
Data Profiling: Yannis Sismanis, Paul Brown, Peter J. Haas, and Berthold Reinwald. GORDIAN: efficient and scalable discovery of composite keys. In Proceedings of the 32nd international conference on Very large data bases, pp. 691-702. VLDB Endowment, 2006. (Volltext aus HPI-Netz verfügbar)