Hasso-Plattner-Institut25 Jahre HPI
Hasso-Plattner-Institut25 Jahre HPI
Login
 

Mina Rezaei

Deep representation Learning from Imbalanced Medical Imaging

Medizinische Bildanalyse spielt eine wichtige Rolle in der Diagnose von Krankheiten, der Behandlungsplanung und der klinischen Überwachung. Eine der großen Schwierigkeiten in der medizinischen Bildanalyse ist das Vorhandensein von nicht ausbalancierten Trainingsdaten, bei denen die Anzahl der Datenpunkte der Zielklasse in der Unterzahl sind. Die Aussagen eines Modells, welches auf einem ausbalancierten Datensatz trainiert wurde, tendieren dazu Datenpunkte in die Klasse mit der Mehrzahl an Trainingsdaten einzuordnen. Die Aussagen eines solchen Modells haben eine geringe Sensitivität und hohe Genauigkeit. Im medizinischen Anwendungsbereich kann die Einordnung eines Datenpunktes in eine falsche Klasse hohe Kosten nach sich ziehen. In der Nichterkennung eines Tumors, steckt zum Beispiel ein viel höheres Risiko für einen Patienten, als wenn ein gesunder Patient zu einem Doktor geschickt wird. Das Problem des Lernens unter Nutzung von nicht ausbalancierten Trainingsdaten wird erst seit kurzem in der Klassifizierung von Krankheiten, Entdeckung von Tumoren und Segmentierung von Tumoren untersucht. In der Literatur wird hier zwischen zwei verschiedenen Ansätzen unterschieden: datenbasierte und algorithmische Ansätze. Die vorliegende Arbeit behandelt das Lernen unter Ausnutzung von ausbalancierten medizinischen Bilddatensätzen, mittels datenbasierten und algorithmischen Ansätzen. Bei den datenbasierten Ansätzen ist es unser Ziel die Datenverteilung durch gezieltes Nutzen der vorliegenden Datenbasis zu balancieren. Dazu schlagen wir neuartige Ansätze vor um eine ausgeglichene Einordnung der Daten aus seltenen Klassen vornehmen zu können. Diese Ansätze sind unter anderem "synthesize minority class sampling", "patient-wise batch normalization" und die Erstellung von komplementären Labels unter Nutzung von generative Adversarial Networks. Auf Seite der algorithmischen Ansätze verändern wir den Trainingsalgorithmus um die Tendenz in Richtung der Klasse mit der Mehrzahl an Trainingsdaten zu verringern. Dafür schlagen wir verschiedene Algorithmen im Bereich des kostensensitiven Lernens, Ensemble Lernens und des gemeinsamen Lernens vor, um mit stark ausbalancierten Trainingsdaten umgehen zu können.