Hasso-Plattner-Institut25 Jahre HPI
Hasso-Plattner-Institut25 Jahre HPI
Login
 

Nikolai Podlesny

Erkennung von Quasi-Identifikatoren zum Schutz der Privatsphäre vor Rückschlüssen in hochdimensionalen Datensätzen

Der personenbezogene Datenschutz gilt als Grundrecht in der Europäischen Union. Dieser Schutz ist nicht nur Teil unserer höchsten ethischen Standards, sondern auch in diversen Gesetzgebungen, verschiedenen bewährten Praktiken und den höchsten Gerichtsentscheidungen verankert. In der jüngeren Vergangenheit gab es zunehmend mehr Zwischenfälle, bei dem der Datenschutz von Individuellen nicht gewahrt werden konnte. Berichterstattung zu diesen Ereignissen schließen ein, sind aber nicht beschränkt auf die Sektoren der Telekommunikation, Transport, Finanztransaktionen und Gesundheitswesen.

Nach diesen Vorfällen ist die Freigabe datenschutzrechtlicher Datensätze mit Problemen behaftet. Eines dieser Probleme ist die zeitliche Komplexitätsbeschränkung syntaktischer Anonymisierungsmethoden, durch die ihre Erforschung weitgehend zum Erliegen kam. Ansätze wie k-anonymity, l-diversity oder t-closeness haben sich in Ihrer Rechenzeit als sehr komplex und zeitaufwändig erwiesen. Auch Methoden der differenziellen Privatsphäre („differential privacy“) als probabilistische Anonymisierungstechnik weisen essentielle Einschränkungen für den Schutz von personenbezogenen Daten auf.

Die Kombination von mehreren, unscheinbaren Datenpunkten können Quasi-Identifikatoren bilden, welche wiederum Angreifern in Kombination mit Hilfsdaten Schlussforderungen ermöglichen um private Informationen abzuleiten. Solche beobachteten Muster entfalten ihr volles Potenzial in dünn besiedelten, hochdimensionalen Daten, da ihre große Informationsvielfalt eine extreme Vielfalt von Schlussfolgerungen fördert. Die Suche nach und Beseitigung von Schlussfolgerung-Faktoren, die als Quasi-Identifikatoren (QID) fungieren, sind für das Problem des datenschutzschonenden Datenaustauschs von wesentlicher Bedeutung. Technologische Verbesserungen wie tragbare Fitnessgeräte für Verbraucher und Sensoren, die das Alltagsverhalten verfolgen, beschleunigen die Existenz von Datensätzen mit vielen Attributen und großen Datenmengen. Diese zusätzlichen Datenquellen bieten ein enormes Versprechen, erschweren aber gleichzeitig die Anonymisierungsbemühungen aufgrund der zunehmenden Komplexität.

Als Teil dieser Arbeit wird das Finden von Quasi-Identifikatoren als "Find-QID"-Problem formalisiert, mathematische und technische Optimierungsmethoden vorgestellt, implementiert und experimentell verglichen. Ferner werden Charakteristika von Quasi-Identifikatoren erforscht, neue Entdeckungsmethoden vorgestellt und experimentell abgewogen und ebenfalls neue Anonymisierungsverfahren entworfen um die Existenz selbiger Quasi-Identifikatoren nachhaltig auszuschließen. In Summe wird aufgezeigt, wie diese Neuerungen sogar eine nahezu Echtzeit-Laufzeit für derzeit un-praktizierbare Anwendungen ermöglicht. Gleichzeitig wir aufgezeigt, wie selbige Beiträge zweckentfremdet werden können, um beispielhaft Kristine A. und Cameron R. in einem öffentlichen Datensatz zur US-Präsidentschaftswahl 2020 wiederzufinden.