Hasso-Plattner-Institut
Hasso-Plattner-Institut
  
Login
 

Cheng Wang

Deep Learning of Multimodal Representations

Eine Sammlung von verschiedenen Arten von Daten, wie Text, Bild, Video und Audio usw., kann als multimodale Daten bezeichnet werden. Solche Daten haben eine gemeinsame semantische Bedeutung, welche mit Informationen aus verschiedenen Datenquellen veranschaulicht werden kann. In den letzten Jahren wuchs die Menge solcher multimodalen Daten sehr schnell und stellt somit eine große Herausforderung für die multimediale Datenanalyse dar. Es besteht ein dringender Bedarf an der Entwicklung von intelligenten Verfahren für die Verarbeitung der multimodalen Daten, um verschiedene Arten von semantische Informationen aus diesen Daten extrahieren zu können. Das Ziel dieser Arbeit ist Deep Learning Modelle zu entwickeln, die deskriptive Darstellungen aus multimodalen Daten automatisch lernen, um High-Level-Aufgaben zu lösen. Die wichtigsten Aufgaben, die in dieser Arbeit untersucht werden sind ranking Aufgaben (multimodal und crossmodal Retrieval), diskriminative Aufgaben (Human Action Recognition) und generative Aufgaben (Image Captioning).

In der Vergangenheit wurden bereits große Fortschritte bei der Entwicklung von Techniken des maschinellen Lernens für multimodale Daten erzielt. Bestehende Ansätze basieren häufig auf entweder gut entworfenen Darstellungen für die Daten, oder flachen Modellen für die Erfassung der Korrelationen zwischen verschiedenen Modalitäten. Sie eignen sich jedoch nicht gut um Zuordnungsbeziehungen zwischen Modalitäten in semantischen Räumen zu etablieren. Um die oben genannten Mängel bei den herkömmlichen Verfahren zu lösen, haben wir in dieser Arbeit Deep Learning basierte Architekturen und Modelle entwickelt. Darauf basierend können wir nicht nur automatisch tiefe semantische Darstellungen aus mehreren Modalitäten lernen, sondern auch die latenten Beziehungen der Modalitäten erkunden. Wir untersuchen auch das Erlernen einer gemeinsamen Repräsentation für multimodale Daten, die zu einer Steigerung der Leistung im Vergleich zu einer einzelnen Modalität führen.

Die in dieser Arbeit aufgefhrten Modelle basieren auf mehreren grundlegenden Deep Neural Networks, wie z.B. Multilayer Perceptrons (MLP), Convolutional Neural Networks (CNN) und Recurrent Neural Networks (RNN). Weiterhin haben wir neuartige Netzwerke zur Analyse von Datenszenarien (Text, Bild, Video und Audio) erstellt. Die drei Hauptkapitel dieser Arbeit konzentrieren sich jeweils auf die folgenden Themen: (1) Visual-textual representation Learning: In diesem Kapitel wird ein Ansatz vorgestelt, der die Beziehung zwischen Bildern und den zugehörigen Textbeschreibungen oder Tags lernen kann. Solche visuellen-textuellen Korrelationen sind besonders wichtig in multimodal und crossmodal Retrieval Problemen. (2) Video representation learning: Hier schlagen wir zwei Ansätze für das Lernen von Videodarstellungen vor, die auf räumlichen, zeitlichen und akustischen Videostreams basieren vor. Der erste Ansatz untersucht den Video-Level-Abstand via deep metrics learning. Der zweite Ansatz erforscht die Fusion von Deep Learning Darstellung aus mehreren Video Streams und beweist, dass eine solche Fusion in der Lage ist, die Ergebnisse von Human Action Recognition zu verbessern. (3) Visual-language representation learning: Dieses Kapitel entwirft eine Encoder-Decoder-Architektur um Bild und Wortsequenzen zu verbinden. Das gelernte visuelle-Sprachmodell hat die Fähigkeit, neue Satzbeschreibungen für gegebene Eingangsbilder zu erzeugen.

In dieser Arbeit wurden die Wirksamkeit und Verallgemeinerungsfähigkeit der vorgeschlagenen Modelle mittels mehrerer Benchmark-Datensätze ausgewertet. In umfangreichen Experimenten erreichen unsere Modelle in hohem Maße wettbewerbsfähige oder state-of-the-art Performance.