Synthetische Daten – die Rettung aus der Anonymisierungskrise?

Fachbeitrag

Immer wieder berichten die Medien, dass eigentlich anonyme Daten konkreten Personen zugeordnet werden konnten. Auch wenn die Verantwortlichen genauso medienwirksam proklamieren, dass neben ihrem Desinteresse an den personenbezogenen Daten auch die technische Unmöglichkeit sie an einem Auswerten hinderte. Ist die Anonymisierung in der Krise und könnten synthetische Daten die Rettung sein?

Herausforderungen der Datennutzung

Grundsätzlich ist das Interesse von Unternehmen sehr groß, erhobene personenbezogene Daten für sekundäre Zwecke brauchbar zu machen. Häufig stehen hierbei Innovationen im Fokus und die Anforderungen der DSGVO werden als hindernd empfunden. Denn häufig fehlt für diese Verarbeitung eine Rechtsgrundlage und die Daten dürfen dann nicht über ihren eigentlichen Erhebungszweck hinaus verwendet werden.

Anonymisierung als Lösung?

Das Problem würde sich nicht stellen, wenn der Anwendungsbereich der DSGVO erst gar nicht eröffnet wäre. Einen Ausweg könnten anonyme Daten bieten. Denn diese sind keine personenbezogenen Daten im Sinne der DSGVO.

Hierzu Erwägungsgrund 26 der DSGVO:

„Die Grundsätze des Datenschutzes sollten daher nicht für anonyme Informationen gelten, d.h. für Informationen, die sich nicht auf eine identifizierte oder identifizierbare natürliche Person beziehen, oder personenbezogene Daten, die in einer Weise anonymisiert worden sind, dass die betroffene Person nicht oder nicht mehr identifiziert werden kann. Diese Verordnung betrifft somit nicht die Verarbeitung solcher anonymer Daten, auch für statistische oder für Forschungszwecke.“

Folglich werden anonymisierte Daten als solche definiert,

„die so anonymisiert sind, dass die betroffene Person nicht oder nicht mehr identifizierbar ist“.

Wichtigstes Merkmal in diesem Zusammenhang ist, dass die Daten keine Identifizierung erlauben. Es kommt hier nicht nur auf das einzelne Datum an. Vielmehr ist auch die Kombination von verschiedenen Informationen entscheidend, welche die Möglichkeit der Identifizierung einer Person einräumt. Gelingt also eine Anonymisierung, können die Unternehmen die Daten verwenden, austauschen oder sogar verkaufen, weil der Schutz der einstmals Betroffenen und ihrer Daten nicht mehr erforderlich ist.

Die effektive Anonymisierung gestaltet sich jedoch schwierig. Verantwortliche stehen hier vor vielen Herausforderungen (wir berichteten ausführlich). Nicht zuletzt auch weil Fehlschläge der Anonymisierung – wir denken an die Medienberichte über Netflix – zusätzlich die Verfahren in Frage stellen. Zudem stößt die Anonymisierung dort an ihre Grenzen, wo der Zusammenhang zwischen dem Datensatz und konkreten Personen durch den technischen Fortschritt wieder rekonstruierbar wird.

Synthetische Daten als Helfer

Ausweg aus dieser Situation könnten synthetische Daten sein.

„Unter synthetischen Daten versteht man künstlich erzeugte Daten, die nicht aus realen Ergebnissen stammen.“

Durch die rasanten Entwicklungen im Bereich KI könnte es für Unternehmen möglich werden, eine Identifizierung zu einer bestimmten Person auszuschließen, obwohl detaillierte Datensätze verwendet werden. Künstliche Intelligenzen, wie z. Bsp. Deep Generative Model, generieren synthetische Daten. Dahinter stehen maschinelle Lernalgorithmen, die auf einen Datensatz trainiert werden und die statistischen Informationen und Strukturen dieser Originaldaten erlernen.

Aus dem trainierten Verständnis des Datensatzes können dann neue, synthetische Datensätze geschaffen werden. Faszinierend ist, dass es sich um komplett neue, absolut synthetische Daten handelt, die natürlich auch keinen Personenbezug mehr vorweisen. Dennoch bilden die synthetischen Daten spiegelbildlich den Originaldatensatz ab, was es den Verwendern ermöglicht, verlässliche statistische Aussagen aus diesen ziehen zu können.

Wie funktioniert das?

  1. Der Lernalgorithmus lernt die statistische Verteilung des Datensatzes. Erfasst werden neben der Verteilung, welche Korrelationen zwischen den Daten bestehen. Interessant ist, dass die Modelle auch noch unentdeckte Zusammenhänge erkennen können.
  2. Im zweiten Schritt erfasst das Modell beispielhaft neue Datenpunkte, die den echten Daten statistisch ähnlich sind und auch ähnliche Korrelationen aufweisen.

Auf diese Weise wird ein äquivalenter Datensatz erstellt. Die so erzeugten Daten entsprechen den Originaldaten, ohne dass sie auf die ursprünglichen Werte zurückgeführt werden können.

Ist die Zukunft synthetisch?

Das Generieren synthetischer Datensätze ist in dieser Form noch nicht für die breite Anwendung zugänglich. Zum einem, weil zu einer zuverlässigen Umsetzung sehr große Datensätze benötigt werden und zum anderen, weil die Verfahren noch recht kostspielig sind. Die notwendigen KI-Tools stehen aber auch erst seit wenigen Jahren zur Verfügung. Es ist sehr wahrscheinlich, dass sich die allgemeine Verfügbarkeit erweitert, wenn mehr Anbieter auf dem Markt die Herstellung von synthetischen Daten anbieten. Bei dieser Art der Anonymisierung handelt es sich zwar auch um eine Verarbeitung von Daten i. S. d. der DSGVO. Wenn die synthetischen Daten aber erstellt wurden, kann das Unternehmen diese Daten nach Lust und Laune verwenden.

intersoft consulting services AG

Als Experten für Datenschutz, IT-Sicherheit und IT-Forensik beraten wir deutschlandweit Unternehmen. Informieren Sie sich hier über unser Leistungsspektrum:

Externer Datenschutzbeauftragter

Hinterlassen Sie einen Kommentar

Die von Ihnen verfassten Kommentare erscheinen nicht sofort, sondern erst nach Prüfung und Freigabe durch unseren Administrator. Bitte beachten Sie auch unsere Nutzungsbedingungen und unsere Datenschutzerklärung.