Hasso-Plattner-Institut
Prof. Dr. Felix Naumann
 

Seminar Text Mining

In diesem Seminar stellen Studenten einander wichtige Bereiche des Textminings anhand wissenschaftlicher Literatur vor. Neben dem Kennenlernen spannender Systeme und Algorithmen üben die Studenten das Lesen wissenschaftlicher Arbeiten, das Halten wissenschaftlicher Vorträge, sowie das Schreiben wissenschaftlicher Texte.

Die Teilnehmerzahl ist auf 15 beschränkt. Falls sich mehr bewerben, wählen wir zufällig 15 aus.
Update: Teilnehmerzahl wurde von 10 auf 15 erhöht!

Die Note setzt sich folgendermaßen zusammen:

  • 40% Vortrag
  • 30% Aktive Teilnahme
  • 30% Abschlussbericht

Termine

Termine: Mittwochs, 13:30 Uhr, Campus III

DatumThemaVortragender
19.4.ThemenvorstellungAlle Betreuer
26.4.Wissenschaftliches LesenRalf Krestel
3.5.
10.5.
17.5.Wissenschaftliche VorträgeRalf Krestel
24.5.
31.5.
7.6.Vortragsblock 1Studenten
14.6.Vortragsblock 2Studenten
21.6.Vortragsblock 3Studenten
28.6.Vortragsblock 4Studenten
5.7.Vortragsblock 5Studenten
12.7.Wissenschaftlich SchreibenRalf Krestel
19.7.LaTeX EinführungRalf Krestel
26.7.
14.8.2017
22 Uhr
Abgabe AusarbeitungenStudenten

 

Dazwischen: Regelmäßige Treffen mit dem Betreuer

(Änderungen vorbehalten)

Themen

Die folgenden Themen werden an jeweils einen Studenten vergeben und vom jeweiligen Mitarbeiter betreut.

1. Named Entity Recognition (Zuo Zhe) (englische Betreuung)

  • Chieu, H. L., & Ng, H. T. (2002, August). Named entity recognition: a maximum entropy approach using global information. In Proceedings of the 19th international conference on Computational linguistics-Volume 1 (pp. 1-7). ACL

2. Word Sense Disambiguation (Ralf Krestel)

  • David Yarowsky. 1995. Unsupervised word sense disambiguation rivaling supervised methods. In Proceedings of the 33rd annual meeting on Association for Computational Linguistics. 189-196. ACL.

3. Named Entity Linking (Zuo Zhe) (englische Betreuung)

  • Mihalcea, R., & Csomai, A. (2007, November). Wikify!: linking documents to encyclopedic knowledge. In Proceedings of the sixteenth ACM conference on Conference on information and knowledge management (pp. 233-242). ACM.

4. Information Extraction (Julian Risch)

  • Banko, M., Cafarella, M.J., Soderland, S., Broadhead, M. and Etzioni, O., 2007, January. Open Information Extraction from the Web. In IJCAI (Vol. 7, pp. 2670-2676).

5. Relationship Extraction (Tim Repke)

  • Agichtein, E. and Gravano, L., 2000, June. Snowball: Extracting relations from large plain-text collections. In Proceedings of the fifth ACM conference on Digital libraries (pp. 85-94). ACM.

6. Document Clustering (John Koumarelas) (englische Betreuung)

  • Wei Xu, Xin Liu, and Yihong Gong. 2003. Document clustering based on non-negative matrix factorization. In Proceedings of the 26th annual international ACM SIGIR conference on Research and development in informaion retrieval. 267-273. ACM.

7. Text Classification (Konstantina Lazaridou) (englische Betreuung)

  • Sahami, M., Dumais, S., Heckerman, D., & Horvitz, E. (1998, July). A Bayesian approach to filtering junk e-mail. In Learning for Text Categorization: Papers from the 1998 workshop (Vol. 62, pp. 98-105).

8. Topic Modeling (Julian Risch)

  • Hofmann, Thomas. Probabilistic latent semantic indexing. 1999. Proceedings of the 22nd annual international ACM SIGIR conference on Research and development in information retrieval. 50-57. ACM.

9. Sentiment Analysis (Konstantina Lazaridou) (englische Betreuung)

  • Theresa Wilson, Janyce Wiebe, and Paul Hoffmann. 2005. Recognizing contextual polarity in phrase-level sentiment analysis. In Proceedings of the conference on Human Language Technology and Empirical Methods in Natural Language Processing (HLT '05). Association for Computational Linguistics, Stroudsburg, PA, USA, 347-354. DOI=http://dx.doi.org/10.3115/1220575.1220619

10. Opinion Mining (Konstantina Lazaridou) (englische Betreuung)

  • Murthy Ganapathibhotla and Bing Liu. 2008. Mining opinions in comparative sentences. In Proceedings of the 22nd International Conference on Computational Linguistics - Volume 1 (COLING '08), Vol. 1. Association for Computational Linguistics, Stroudsburg, PA, USA, 241-248.

11. Information Retrieval (Ralf Krestel)

  • Page, Lawrence and Brin, Sergey and Motwani, Rajeev and Winograd, Terry. 1999. The PageRank Citation Ranking: Bringing Order to the Web. Technical Report. Stanford InfoLab.

12. Question Answering (Tim Repke)

  • Prager, J., Chu-Carroll, J., Brown, E.W. and Czuba, K., 2008. Question answering by predictive annotation. In Advances in Open Domain Question Answering (pp. 307-347). Springer Netherlands.

13. Machine Translation (Ralf Krestel)

  • Peter F. Brown, John Cocke, Stephen A. Della Pietra, Vincent J. Della Pietra, Fredrick Jelinek, John D. Lafferty, Robert L. Mercer, and Paul S. Roossin. 1990. A statistical approach to machine translation. Comput. Linguist. 16, 2 (June 1990), 79-85.

14. Automatic Summarization (Julian Risch)

  • Carenini, G., Cheung, J.C.K. and Pauls, A., 2013. MULTI‐DOCUMENT SUMMARIZATION OF EVALUATIVE TEXT. Computational Intelligence29(4), pp.545-576.

15. Text Visualization (Tim Repke)

  • Burch, M., Lohmann, S., Beck, F., Rodriguez, N., Di Silvestro, L. and Weiskopf, D., 2014, July. Radcloud: Visualizing multiple texts with merged word clouds. In Information Visualisation (IV), 2014 18th International Conference on (pp. 108-113). IEEE.