Das Hasso-Plattner-Institut bietet seinen Studierenden ein gebührenfreies und praxisnahes Informatikstudium an einem international renommierten Institut. Zum Studienangebot zählen der deutschlandweit einzigartige Bachelorstudiengang IT-Systems Engineering und die fünf Masterstudiengänge Cybersecurity, Data Engineering, Digital Health, IT-Systems Engineering und Software Systems Engineering.

Unsere Forschenden am HPI profitieren von einem inspirierenden wissenschaftlichen Umfeld sowie einer kollaborativen und inklusiven Arbeitsatmosphäre. So entstehen Erkenntnisse auf hohem wissenschaftlichen Niveau, die zum Wohl der Gesellschaft beitragen. Unsere wissenschaftliche Arbeit ist in Research Cluster strukturiert. Zudem kooperieren wir in zahlreichen Forschungsprogrammen mit wissenschaftlichen Institutionen, Unternehmen und öffentlichen Einrichtungen auf nationaler und internationaler Ebene.

Das Hasso-Plattner-Institut in Potsdam ist einzigartig in der deutschen Universitätslandschaft. Unterstützt durch Stifter Hasso Plattner und durch internationale Kooperationen bis hin zum Silicon Valley wächst das Angebot des Instituts stetig weiter. Erfahrt mehr über den Stifter, die Veranstaltungen und das Studium am HPI.

Auch für Schüler und Berufstätige bietet das Hasso-Plattner-Institut attraktive Bildungsangebote. Mit openHPI betreibt es eine eigene IT-Bildungsplattform mit kostenlosen Online-Kursen. Die Schülerakademie organisiert Informatik-Camps und Veranstaltungen für Schüler. Die HPI Academy bietet Berufstätigen Bildungsangebote im Design Thinking.

Der Pressebereich des Hasso-Plattner-Instituts versorgt Sie regelmäßig mit allen aktuellen Neuigkeiten, Infos zu unseren Social-Media-Kanälen, Kontaktdaten und ausführlichem Pressematerial.

Welcome to the website of Prof. Ariel Dora Stern, head of the research group Digital Health, Economics & Policy.

Christian Bartz

„Reducing the Annotation Burden: Deep Learning for Optical Character Recognition using less Manual Annotations"

Text umgibt uns ̈uberall. Wir finden Text in allen Lebenslagen, z.B. in einem Geschäft, an Gebäuden, oder in unserer Wohnung. Viele dieser Textentitäten können heutzutage auch in digitalen Bildern gefunden werden, welche auf verschiedene Art und Weise erstellt werden können, z.B. mittels einer Kamera in einem Smartphone oder durch einen Dokumentenscanner. Die Anzahl verfügbarer digitaler Bilder, z.B. Millionen – wenn nicht Milliarden von Bildern – in Google Streetview, macht eine manuelle Analyse der Bilddaten unmöglich. Obwohl es im Gebiet der Optical Character Recognition (OCR) in den letzten Jahren viel Fortschritt gab, gibt es doch noch viele Bereiche, die noch nicht vollständig erforscht worden sind. Der immer zunehmende Einsatz von Methoden des maschinellen Lernens, insbesondere der Einsatz von Deep Learning Technologien, im Bereich der OCR, führt zu dem großen Problem der Verfügbarkeit von annotierten Trainingsdaten. Die Beschaffung annotierter Daten mittels manueller Annotation ist zeitintensiv und sehr teuer.

In dieser Arbeit zeigen wir neue Wege und Verfahren auf, wie das Problem der Beschaffung annotierter Daten für die Anwendung von modernsten Deep Learning Verfahren im Bereich der OCR gelöst werden k̈onnte. Hierbei zeigen wir neue Verfahren in zwei Unterbereichen der OCR. Einerseits untersuchen wir, wie wir die Annotationskosten reduzieren könnten, indem wir inexakte Annotationen benutzen um z.B. die Kosten der Annotation von echten Daten im Bereich der Texterkennung aus natürlichen Bildern zu reduzieren. Dieses System wird mittels weak supervision trainiert und erreicht Ergebnisse, die auf dem Stand der Technik bzw. darüber liegen. Unsere Methode basiert auf zwei unabhängigen neuronalen Netzwerken, die mittels eines Spatial Transformers verbunden werden. Beide Netzwerke werden zusammen trainiert und lernen zusammen, wie Text gefunden und gelesen werden kann. Dabei nutzen wir aber nur Annotationen und Supervision für das Lesen (recognition) des Textes, nicht für die Textfindung. Wir zeigen weiterhin, dass unser System für eine Mehrzahl von Aufgaben im Bereich der Texterkennung aus natürlichen Bildern genutzt werden kann, ohne Veränderungen im Netzwerk vornehmen zu müssen.

Andererseits untersuchen wir, wie wir Verfahren zur Erstellung von synthetischen Daten benutzen können, um die Kosten und den Aufwand der manuellen Annotation zu verringern und zeigen Ergebnisse aus dem Bereich der Analyse von Handschrift in historischen Archivdokumenten. Zuerst präsentieren wir ein System zur Erkennung, ob ein Bild überhaupt Handschrift enthält. Hier schlagen wir eine neue Datengenerierungsmethode vor. Die generierten Datenwerden zum Training eines Klassifizierungsmodells genutzt. Unsere experimentellen Ergebnisse belegen, dass unsere Idee auch auf echten Daten aus einem
Archiv eingesetzt werden kann. Als Zweites führen wir einen neuen Schritt in einer Dokumentenanalyseplattform ein: Handschriftklassifizierung. Hier ordnen wir Bilder einzelner handgeschriebener Wörter anhand ihrer visuellen Struktur in Klassen, wie Zahlen, Datumsangaben oder Wörter ein. Die Einführung dieses Analyseschrittes erlaubt es uns den besten Algorithmus f ̈ur den nächsten Schritt, die eigentliche Handschrifterkennung, zu finden. Der Analyseschritt erlaubt es uns auch, bereits Aussagen über den semantischen Inhalt eines Dokumentes zu treffen, ohne weitere Analyseschritte, wie Named Entity Recognition,
durchführen zu müssen. Wir zeigen, dass unser Ansatz sehr gut funktioniert, wenn er auf synthetischen Daten trainiert wird; wir zeigen weiterhin, dass unser Ansatz auch für zero-shot Klassifikation eingesetzt werden kann. Zum Schluss präsentieren wir ein neues Verfahren zur Generierung von Trainingsdaten für die pixelgenaue semantische Segmentierung in Bildern von Dokumenten. Unser Verfahren basiert auf der bekannten StyleGAN Architektur und ist in der Lage Bilder mit entsprechender Annotation automatisch zu generieren. Hierbei werden keine echten annotierten Daten ben ̈otigt und das Verfahren kann auf jeder
Form von Dokumenten eingesetzt werden.

Bewerbung für dein Bachelorstudium

Bewerbt euch bis zum 15. Juli für den Bachelorstudiengang IT-Systems Engineering am HPI!

Jetzt bewerben

Stipendien für Studentinnen

Wir fördern Frauen in der IT! Deswegen vergeben wir auch in diesem Jahr wieder das Women-in-Tech Empower Pack an Erstsemester-Studentinnen im Bachelor.

Jetzt bewerben!

Der HPI-Wissenspodcast

Fundiertes Wissen über die digitale Welt, anschaulich und verständlich erklärt – das bietet der Wissenspodcast „Neuland“ mit Expertinnen und Experten des HPI.

Jetzt reinhören unter: https://podcast.hpi.de

HPI Merch – jetzt online bestellbar

In unserem HPI Shop gibt es ab sofort fair produziertes und zertifiziertes Merchandise wie Pullover und T-Shirts aus Bio-Baumwolle, Taschen, Trinkflaschen, ein löschbares Notizbuch und weitere nachhaltige Accessoires.

Studieren am HPI

VOR DEM STUDIUM

Studienangebot
Alle Bachelor- und Masterstudiengänge des HPI im Überblick.
Studienbewerbung
Alle Informationen rund um das Bewerbungsverfahren und die benötigten Unterlagen für deine Bewerbung.
Studienberatung
Wir beraten Interessenten individuell über Inhalte und Aufbau unserer Studienangebote und das Auswahlverfahren.

IM STUDIUM

Lehrveranstaltungen
Alle Lehrveranstaltungen der einzelnen Studiengänge im Überblick.
Entrepreneurship
Ein Überblick zu allen HPI-Angeboten im Bereich Entrepreneurship.

NACH DEM STUDIUM

Alumni
Alle Informationen und Angebote für unsere Alumni auf HPI Connect.
Alumni-Jobportal
Das HPI interne Jobportal für den direkten Ausstausch zwischen Alumni und Unternehmen.
Stellen am HPI
Alle freien Stellen des HPI auf einen Blick

DIGITAL ENGINEERING FAKULTÄT

Termine

19.07.2024 | HPI Sommerfest 2024

Beim HPI Sommerfest lassen wir traditionell am letzten Freitag der Vorlesungszeit das akademische Jahr ausklingen. > Zum Artikel

19.08.2024 | HPI-Sommercamp 2024

Hack den Sommer mit deinen Ideen im HPI-Sommercamp 2024! Fünf Tage lang tauchst du mit anderen Jugendlichen in die Welt … > Zum Artikel

16.10.2024 | Young Women in AI Camp

Beim Young Women in AI Camp lernen Schülerinnen vom 16.-18. Oktober die Welt der künstlichen Intelligenz kennen. > Zum Artikel

Aktuelle Pressemitteilungen

08.07.2024 | Wenn Computer sich nicht verrechnen dürfen

Für ihr Bachelorprojekt haben Studierende eine Plattform entwickelt, die den Betrieb von IT-Bahnanwendungen in der Cloud … > Zum Artikel

13.06.2024 | HPI freut sich auf die zweite Humboldt-Professur

Prof. Sandra Wachter wurde für eine "Humboldt-Professur für Künstliche Intelligenz 2025" nominiert und wird künftig an … > Zum Artikel

04.06.2024 | KI und andere Trends mitgestalten lernen

Am 7. Juni können sich IT-interessierte Jugendliche digital oder vor Ort über das Bachelorstudium am HPI informieren. > Zum Artikel

Research Cluster

Am Hasso-Plattner-Institut gibt es die folgenden Research Cluster:

Promotion am HPI

Informationen zu einer Promotion am HPI erhalten Sie hier.

Research Schools

Die HPI Research Schools für "Service-Oriented Systems Engineering" und "Data Science and Engineering" sind die Graduiertenschule des Hasso-Plattner-Instituts. Sie unterhalten Außenstellen in Südafrika, Israel, China und den USA.

Informationen zu den Research Schools

Future SOC Lab

Das Future SOC Lab des Hasso-Plattner-Instituts bietet externen Wissenschaftlern neueste Hard- und Software-Infrastrukturen kostenfrei zu Forschungszwecken.

Informationen zum Future SOC Lab

Ombudsperson

Ombudspersonen beraten als neutrale und qualifizierte Ansprechpersonen in Fragen guter wissenschaftlicher Praxis und in Verdachtsfällen wissenschaftlichen Fehlverhaltens.

Sie tragen, soweit möglich, zur lösungsorientierten Konfliktvermittlung bei.

Bei Fragen wenden Sie sich bitte an:

Prof. Dr. Tilmann Rabl

Tel.: +49 (0)331 5509-280
E-Mail: tilmann.rabl(at)hpi.de

Future SOC Lab

Das Future SOC Lab des Hasso-Plattner-Instituts bietet externen Wissenschaftlern neueste Hard- und Software-Infrastrukturen kostenfrei zu Forschungszwecken.

Informationen zum Future SOC Lab

Research Schools

Informationen zu den Research Schools

Digital Health Cluster

Das Digital Health Cluster (DHC) ist ein offenes Netzwerk für Wissenschaftler und Forschungseinrichtungen, die gemeinsam das Gesundheitssystem mit neuen Digital-Health-Anwendungen voranbringen und den Patienten stärken möchten.

Informationen zum Digital Health Cluster