Das Hasso-Plattner-Institut bietet seinen Studierenden ein gebührenfreies und praxisnahes Informatikstudium an einem international renommierten Institut. Zum Studienangebot zählen der deutschlandweit einzigartige Bachelorstudiengang IT-Systems Engineering und die fünf Masterstudiengänge Cybersecurity, Data Engineering, Digital Health, IT-Systems Engineering und Software Systems Engineering.

Unsere Forschenden am HPI profitieren von einem inspirierenden wissenschaftlichen Umfeld sowie einer kollaborativen und inklusiven Arbeitsatmosphäre. So entstehen Erkenntnisse auf hohem wissenschaftlichen Niveau, die zum Wohl der Gesellschaft beitragen. Unsere wissenschaftliche Arbeit ist in Research Cluster strukturiert. Zudem kooperieren wir in zahlreichen Forschungsprogrammen mit wissenschaftlichen Institutionen, Unternehmen und öffentlichen Einrichtungen auf nationaler und internationaler Ebene.

Das Hasso-Plattner-Institut in Potsdam ist einzigartig in der deutschen Universitätslandschaft. Unterstützt durch Stifter Hasso Plattner und durch internationale Kooperationen bis hin zum Silicon Valley wächst das Angebot des Instituts stetig weiter. Erfahrt mehr über den Stifter, die Veranstaltungen und das Studium am HPI.

Auch für Schüler und Berufstätige bietet das Hasso-Plattner-Institut attraktive Bildungsangebote. Mit openHPI betreibt es eine eigene IT-Bildungsplattform mit kostenlosen Online-Kursen. Die Schülerakademie organisiert Informatik-Camps und Veranstaltungen für Schüler. Die HPI Academy bietet Berufstätigen Bildungsangebote im Design Thinking.

Der Pressebereich des Hasso-Plattner-Instituts versorgt Sie regelmäßig mit allen aktuellen Neuigkeiten, Infos zu unseren Social-Media-Kanälen, Kontaktdaten und ausführlichem Pressematerial.

Welcome to the website of Prof. Ariel Dora Stern, head of the research group Digital Health, Economics & Policy.

Cheng Wang

Deep Learning of Multimodal Representations

Eine Sammlung von verschiedenen Arten von Daten, wie Text, Bild, Video und Audio usw., kann als multimodale Daten bezeichnet werden. Solche Daten haben eine gemeinsame semantische Bedeutung, welche mit Informationen aus verschiedenen Datenquellen veranschaulicht werden kann. In den letzten Jahren wuchs die Menge solcher multimodalen Daten sehr schnell und stellt somit eine große Herausforderung für die multimediale Datenanalyse dar. Es besteht ein dringender Bedarf an der Entwicklung von intelligenten Verfahren für die Verarbeitung der multimodalen Daten, um verschiedene Arten von semantische Informationen aus diesen Daten extrahieren zu können. Das Ziel dieser Arbeit ist Deep Learning Modelle zu entwickeln, die deskriptive Darstellungen aus multimodalen Daten automatisch lernen, um High-Level-Aufgaben zu lösen. Die wichtigsten Aufgaben, die in dieser Arbeit untersucht werden sind ranking Aufgaben (multimodal und crossmodal Retrieval), diskriminative Aufgaben (Human Action Recognition) und generative Aufgaben (Image Captioning).

In der Vergangenheit wurden bereits große Fortschritte bei der Entwicklung von Techniken des maschinellen Lernens für multimodale Daten erzielt. Bestehende Ansätze basieren häuﬁg auf entweder gut entworfenen Darstellungen für die Daten, oder ﬂachen Modellen für die Erfassung der Korrelationen zwischen verschiedenen Modalitäten. Sie eignen sich jedoch nicht gut um Zuordnungsbeziehungen zwischen Modalitäten in semantischen Räumen zu etablieren. Um die oben genannten Mängel bei den herkömmlichen Verfahren zu lösen, haben wir in dieser Arbeit Deep Learning basierte Architekturen und Modelle entwickelt. Darauf basierend können wir nicht nur automatisch tiefe semantische Darstellungen aus mehreren Modalitäten lernen, sondern auch die latenten Beziehungen der Modalitäten erkunden. Wir untersuchen auch das Erlernen einer gemeinsamen Repräsentation für multimodale Daten, die zu einer Steigerung der Leistung im Vergleich zu einer einzelnen Modalität führen.

Die in dieser Arbeit aufgefhrten Modelle basieren auf mehreren grundlegenden Deep Neural Networks, wie z.B. Multilayer Perceptrons (MLP), Convolutional Neural Networks (CNN) und Recurrent Neural Networks (RNN). Weiterhin haben wir neuartige Netzwerke zur Analyse von Datenszenarien (Text, Bild, Video und Audio) erstellt. Die drei Hauptkapitel dieser Arbeit konzentrieren sich jeweils auf die folgenden Themen: (1) Visual-textual representation Learning: In diesem Kapitel wird ein Ansatz vorgestelt, der die Beziehung zwischen Bildern und den zugehörigen Textbeschreibungen oder Tags lernen kann. Solche visuellen-textuellen Korrelationen sind besonders wichtig in multimodal und crossmodal Retrieval Problemen. (2) Video representation learning: Hier schlagen wir zwei Ansätze für das Lernen von Videodarstellungen vor, die auf räumlichen, zeitlichen und akustischen Videostreams basieren vor. Der erste Ansatz untersucht den Video-Level-Abstand via deep metrics learning. Der zweite Ansatz erforscht die Fusion von Deep Learning Darstellung aus mehreren Video Streams und beweist, dass eine solche Fusion in der Lage ist, die Ergebnisse von Human Action Recognition zu verbessern. (3) Visual-language representation learning: Dieses Kapitel entwirft eine Encoder-Decoder-Architektur um Bild und Wortsequenzen zu verbinden. Das gelernte visuelle-Sprachmodell hat die Fähigkeit, neue Satzbeschreibungen für gegebene Eingangsbilder zu erzeugen.

In dieser Arbeit wurden die Wirksamkeit und Verallgemeinerungsfähigkeit der vorgeschlagenen Modelle mittels mehrerer Benchmark-Datensätze ausgewertet. In umfangreichen Experimenten erreichen unsere Modelle in hohem Maße wettbewerbsfähige oder state-of-the-art Performance.

Ombudsperson

Ombudspersonen beraten als neutrale und qualifizierte Ansprechpersonen in Fragen guter wissenschaftlicher Praxis und in Verdachtsfällen wissenschaftlichen Fehlverhaltens.

Sie tragen, soweit möglich, zur lösungsorientierten Konfliktvermittlung bei.

Bei Fragen wenden Sie sich bitte an:

Prof. Dr. Tilmann Rabl

Tel.: +49 (0)331 5509-280
E-Mail: tilmann.rabl(at)hpi.de

Future SOC Lab

Das Future SOC Lab des Hasso-Plattner-Instituts bietet externen Wissenschaftlern neueste Hard- und Software-Infrastrukturen kostenfrei zu Forschungszwecken.

Informationen zum Future SOC Lab

Research Schools

Die HPI Research Schools für "Service-Oriented Systems Engineering" und "Data Science and Engineering" sind die Graduiertenschule des Hasso-Plattner-Instituts. Sie unterhalten Außenstellen in Südafrika, Israel, China und den USA.

Informationen zu den Research Schools

Digital Health Cluster

Das Digital Health Cluster (DHC) ist ein offenes Netzwerk für Wissenschaftler und Forschungseinrichtungen, die gemeinsam das Gesundheitssystem mit neuen Digital-Health-Anwendungen voranbringen und den Patienten stärken möchten.

Informationen zum Digital Health Cluster