Hasso-Plattner-Institut25 Jahre HPI
Hasso-Plattner-Institut25 Jahre HPI
 

Effekte kleiner Stichprobengrößen auf verschiedene Datenanalysetechniken (Sommersemester 2022)

Lecturer: Dr. Katharina Baum (Data Analytics and Computational Statistics)

General Information

  • Weekly Hours: 4
  • Credits: 6
  • Graded: yes
  • Enrolment Deadline: 01.04.2022 - 30.04.2022
  • Examination time §9 (4) BAMA-O: 15,06,2022
  • Teaching Form: Project seminar
  • Enrolment Type: Compulsory Module
  • Course Language: German
  • Maximum number of participants: 8

Programs, Module Groups & Modules

IT-Systems Engineering BA
  • OSIS: Operating Systems & Information Systems Technology
    • HPI-OSIS-V Vertiefung
  • SAMT: Software Architecture & Modeling Technology
    • HPI-SAMT-V Vertiefung

Description

Wir leben in einer Welt komplexer Daten. Ein großer Teil der Komplexität stammt aus den Beziehungen zwischen Entitäten, die eine Abbildung über Netzwerke (Graphen) erfordert. Insbesondere das Ableiten von Netzwerkbeziehungen zwischen vielen Charakteristika aus geringen Datenmengen ist dabei eine Herausforderung.

Die Datenanalyse mithilfe computergestützter Methoden ist inzwischen zu einer Schlüsselkompetenz unserer digitalen Welt geworden. Diverse statistische Methoden, zum Beispiel zur Dimensionsreduktion, zur Vorhersage oder zur Inferenz von Netzwerken, wurden entwickelt und werden derzeit in verschiedenen Szenarien angewendet. Für die korrekte Interpretation der Ergebnisse spielt jedoch auch die zur Verfügung stehende Stichprobengröße eine Rolle.

In diesem Projektseminar beschäftigen wir uns mit Effekten auf Ergebnisse von Datenanalysetechniken, die durch (zu) kleine oder nicht repräsentative Stichproben entstehen können, und deren Interpretation. Wir werden dazu Datensätze aus der realen Welt bearbeiten und analysieren. Diese können inhaltlich zum Beispiel aus der Medizin (wo dieses Problem besonders häufig auftritt), Finanzen, Produktempfehlungen, Weinqualität, … stammen - oder auch aus einem anderen Interessengebiet Ihrer Wahl.

Zunächst werden wir die Problemstellung einführen und Ihnen verschiedene Techniken vorstellen. Insbesondere werden wir auf die Vorbereitung von Datensätzen eingehen sowie auf Methoden zur allgemeinen statistischen Auswertung Ihrer Ergebnisse und Visualisierung. Im Anschluss wählen Sie eine spezifische Analysemethode aus einer Selektion aktueller Forschungsarbeiten (oder eines ähnlichen Papers Ihrer Wahl), die Sie implementieren und mit der Sie ein Datenset Ihrer Wahl passend und unter Betrachtung der oben genannten Gesichtspunkte analysieren. 

Lernziele

  • Sie sammeln Erfahrung in der Vorbereitung von Datensätzen und Visualisierung von Ergebnissen
  • Sie lernen verschiedene Datenanalysetechniken kennen
  • Sie erkennen Schwierigkeiten bei geringen Stichprobengrößen und Unterstrukturen und können in diesem Setting das Ergebnis von Datenanalysen interpretieren.
  • Sie üben den Umgang mit wissenschaftlicher Fachliteratur und wissenschaftliche Herangehensweisen, sowie die strukturierte Präsentation wissenschaftlicher Ergebnisse (mündlich + schriftlich)
  • Sie üben Arbeitsorganisation in kleinen Gruppen und Projektplanung

Requirements

  • Gute Programmierkenntnisse zur Datenanalyse, Visualisierung, und ggf. Implementierung von Analysemethoden, z.B. in Python, R
  • Grundlegende mathematische und angewandte statistische Kenntnisse sind von Vorteil, aber wir führen diese Methoden auch ein.
  • Englischkenntnisse zum Verständnis der Literatur, ggf. Vortrag und Report.

Literature

Squartini, T., et al. Network reconstruction via density sampling. Applied Network Science 2017;2(1):3.

Vabalas, A., et al. Machine learning algorithm validation with a limited sample size. PLoS One 2019;14(11):e0224365.

Yang, Y., et al. Dimensionality reduction by UMAP reinforces sample heterogeneity analysis in bulk transcriptomic data. Cell Reports 2021;36(4):109442.

Baillie, M., et al. Ten simple rules for initial data analysis. Plos Comput Biol 2022;18(2):e1009819.

Learning

Die ersten Termine werden in vorlesungsähnlichem Format stattfinden und Inhalte zu Datenanalysetechniken und der Problemstellung vermitteln, sowie mögliche Projekte vorstellen. Projektarbeit ist in Zweierteam geplant. Nach Auswahl Ihres Themas werden wir uns weiter wöchentlich zu Projektupdates aller Gruppen treffen. Diese Treffen sind sehr interaktiv und dienen dazu, Probleme im Projekt frühzeitig zu erkennen und Synergien mit anderen Teams zu nutzen. Wir planen mindestens zwei Einzeltermine pro Projektteam zur Beratung (zu anderen Zeitpunkten als dem Seminartermin nach Absprache). Vereinzelt werden wir im Verlauf des Semesters weitere Inhalte, wie allgemein zu Projektplanung, Präsentationen, und Berichtstruktur besprechen. In den letzten Treffen werden Sie Ihre Vorträge halten, und nach Abschluss des Vorlesungszeitraums Ihren Bericht mit dokumentiertem Code abgeben.

Ausgabe der Themen findet während der Veranstaltung vom 25.05.2022 statt.

Wir planen Präsenzveranstaltungen mit der Option zur Einwahl via Zoom.

Bitte melden Sie sich beim Moodle des Seminars an, das wir auch zum Teilen von relevantem Material verwenden. https://moodle.hpi.de/course/view.php?id=303

Examination

Die Benotung erfolgt als Portfolioprüfung (Vortrag + schriftlicher Bericht). Die Erstellung eines Projektplans (unbenotet) und aktive Seminarteilnahme, auch an den Fortschrittsberichten, sind Voraussetzungen zum erfolgreichen Abschluss.

  1. Vortrag der Forschungsergebnisse (45 %)
  2. Bericht (55%)

Dates

Mittwochs 9:15-10:45 in Raum A2.1, beginnend am 20. April 2022.

Am 4.5. (Dies Academicus) findet kein Seminar statt; evtl. wird Material remote zur Verfügung gestellt.

Abgabe des Projektplans erfolgt am 15.06.2022. Rücktritt vom Seminar ist damit möglich bis zum 07.06.2022.

Zurück