Hasso-Plattner-Institut
Hasso-Plattner-Institut
  
Login
  • de
 

Dissertation Stephan Repp

Immer mehr Hochschuleinrichtungen nutzen die Möglichkeit, ihre Vorlesungen als Video aufzuzeichnen, in multimedialen Datenbanken abzulegen und für den Zugriff über das Internet bereitzustellen. Die automatische Aufzeichnung von Vorlesungen führt extrem schnell zu großen multimedialen Datenmengen. Bislang ist die detaillierte Suche nach einer Vorlesung in diesen Multimedia Daten jedoch nur begrenzt möglich. Und insbesondere die exakte Erkundigung innerhalb eines Vortrags ist nur selten durchführbar. Der Hauptgrund für die mangelnde Erschließbarkeit eines Videos ist, dass eine manuelle Indexierung aus Kostengründen ausscheidet und dass ein gutes automatisiertes Verfahren bislang nicht zur Verfügung steht. Die Verschiedenartigkeit der Datenquellen erschwert die automatische Extraktion von Informationen darüber hinaus in besonderem Maße. Die Entwicklung eine Verfahrens zur automatischen Indexierung stellt daher ein Desiderat dar; die Generierung eines solchen Verfahrens wird insbesondere für den Bereich des E-Learnings von hohem Nutzen sein.

Für die überwiegende Anzahl an Vorträgen stellt die gesprochene Sprache das Hauptkommunikationsmittel dar und sie ist ihr wesentlichster Informationsträger. Es ist daher von zentraler Bedeutung, diese Informationsressource für die automatische Erschließung der Vorlesungsvideos zu nutzen. Die vorliegende Arbeit geht der Frage nach, wie semantische Informationen aus Sprachtranskripten gewonnen werden können, und sie entwickelt innovative Verfahren zur automatischen Informationsextraktion. Die Entwicklung von Verfahren zur automatischen Informationsextraktion ist mit dem Problem konfrontiert, dass gängige Spracherkennungssysteme zurzeit nur fehlerbehaftete Transkripte der gesprochenen Sprache liefern. Da nicht damit zu rechnen ist, dass sich die Erkennungsqualität der Spracherkenner in naher Zukunft wesentlich verbessern wird, wurden Methoden entwickelt, die trotz der schlechten Erkennungsqualität eine semantische Informationsgewinnung erlauben.

Um die semantische Informationsgewinnung aus Sprachtranskripten zu optimieren, wurden verschiedene Verfahren und Lösungsansätze erforscht. Sie umfassen die automatische Segmentation der Videos mit Hilfe der Sprachtranskripte, die Synchronisation der Folienströme mit der gesprochenen Sprache und die Durchführung einer automatischen semantischen Annotation. Die vorgestellten automatischen semantischen Annotationen der bereit gestellten Multimedia-Inhalte können die darin enthaltenen Informationen schneller und zum Teil sogar erstmals verfügbar machen. Der neue Chain-Index ermöglicht es, die Vorlesungsvideos so zu indexieren, dass eine strukturierte und semantische Inhaltserschließung realisiert wird. Die auf diesem Index basierende, neu entwickelte Benutzeroberfläche erlaubt ein schnelles, exaktes und semantisches Browsen durch ein umfangreiches Videoarchiv. Mit Hilfe der Benutzeroberfläche können die gefundenen Videostellen in einem semantischen Zusammenhang dargestellt werden. Die mit Hilfe der beschriebenen Verfahren automatisch erschlossenen Vorlesungsarchive stehen nun den Lernenden und Lehrenden optimiert zur Verfügung.