Hasso-Plattner-Institut
Prof. Dr. Felix Naumann
  
 

Vorlesung Information Retrieval SoSe 2020

Hinweis: Aufgrund der aktuellen Lage überarbeiten wir das gesamte Kurskonzept. Änderungen der Informationen auf dieser Seiten jederzeit möglich!

Das Finden von Informationen ist die Kernkomponente vieler Anwendungen: von klassischen Internet-Suchmaschinen, über Online-Shops bis hin zur Diagnose von Krebszellen. Den Ursprung hat "Information Retrieval" in den Bibliothekswissenschaften. Seit der Erfindung von Computern und dem Internet jedoch, rückte die Textsuche im Web in den Vordergrund in diesem Feld.

In dieser Vorlesung werfen wir im ersten Teil einen Blick auf die grundlegenden Konzepte des Information Retrievals: Crawling, Indexierung, Suchmodelle, Anfrageverarbeitung, Benutzerschnittstellen und Evaluation. Im zweiten Teil lernen wir Ansätze des maschinellen Lernens zur Verbesserung der Suchergebnisse kennen. Und im letzen Teil geben wir einen Einblick in aktuelle Anwendungsfelder, wie z.B. Web IR, Multimedia IR und Mobile IR. Die Veranstaltung hat einen großen praktischen Anteil ("learning by doing") und die theoretischen Konzepte werden anhand von Anwendungen und Beispielen veranschaulicht.

Lernziele

Studierende können...

  • die Geschichte des IR skizzieren
  • Grundlegende Begriffe des IR erläutern
  • beliebige Textsammlungen technisch erschließen
  • eigene Textsammlungen erstellen (crawling)
  • einen einfachen Index erstellen
  • unterschiedliche Retrieval-Modelle erklären und anpassen
  • Benutzerschnittstellen für IR bewerten
  • verschiedene Suchalgorithmen qualitativ und quantitativ vergleichen
  • Methoden des maschinellen Lernens auf IR anwenden
  • die besonderen Schwierigkeiten der Websuche erläutern
  • PageRank und HITS berechnen
  • Grundlagen der Multimediasuche und der personalisierten Suche erläutern
  • Standardsoftwarelösungen im IR-Bereich konfigurieren und einsetzen

Voraussetzungen

  • Erfolgreicher Abschluss von DBS1
  • Für den praktischen Teil der Übungsaufgaben verwenden wir Python. Studierende können aber für ihre Einreichungen auch Java verwenden. D.h., entweder Python oder Java sollte beherrscht werden.

Bewertung

  • Klausur am Ende des Semesters
  • Teilnahmevoraussetzung für die Klausur ist das Erreichen von mindestens 50% der Punkte der 7 Übungsblätter
  • Ab 75% erreichte Punkte der Übungsblätter bekommt man Bonuspunkte für die Klausur

Einschreibung und Materialien

  1. Melden Sie sich bis zum 22.04. beim Studienreferat für die Vorlesung an.
  2. Sobald Sie eingeschrieben sind, schreiben Sie sich bis zum 24.04. in unseren Moodle-Kurs ein.

Alle Materialien werden über Moodle bereitgestellt.

Zeitplan

  • Es wird im durchschnitt 3-6 Vorlesungsvideos mit je 30 Minuten pro Woche geben.
  • Etwa 3 Videos bilden einen thematischen Block (90 Minuten) und werden zusammen online gestellt (siehe Tabelle unten).
  • Für den Übungsbetrieb wird es wöchentlich zwei Videos zur Vorstellung der nächsten Übung und zur Nachbesprechung allgemeiner Fragen geben (insg. 30 Minuten).
  • Bei Bedarf gibt es interaktive Übungstermine per Videokonferenz.
  • Das Forum in Moodle wird für den aktiven Austausch über die Inhalte genutzt.
WocheThema
20.04.Einführung (vorraussichtlich online 23.04)
27.04.Grundlagen
04.05Textaquise und -transformation
11.05Indexerstellung
18.05Retrieval-Modelle
25.05Benutzerinteraktion
02.06Evaluation
08.06Dokumentorganisation und Learning-To-Rank
15.06Topic Modelle und verteilte Repräsentationen
22.06Websuche und Performance
29.06Linkanalyse
06.07Question Answering
13.07Personalisierung und Soziale Suche
20.07Multimediasuche
tbdKlausur

Kontakt

Literatur

  • Search Engines: Information Retrieval in Practice by W. Bruce Croft, Donald Metzler, and Trevor Strohman
  • Information Retrieval: Implementing and Evaluating Search Engines by Stefan Büttcher, Charles L. A. Clarke, and Gordon V. Cormack
  • An Introduction to Information Retrieval by Christopher D. Manning, Prabhakar Raghavan, and Hinrich Schütze