Mobile-Menu

Datenschutz im KI-Training Wie Unternehmen personenbezogene Daten aus KI-Modellen löschen können

Von Dipl.-Phys. Oliver Schonschek 5 min Lesedauer

Anbieter zum Thema

Kann man personenbezogene Daten aus einer bereits trainierten KI wirklich löschen? Diese Frage treibt Datenschutzbehörden und Unternehmen gleichermaßen um. Während einige auf „vergessendes Lernen“ setzen, sehen Experten erhebliche technische und rechtliche Hürden. Klar ist: Wer KI-Modelle trainiert, sollte den Personenbezug schon vorher minimieren, sonst droht ein Compliance-Risiko.

Das Löschen personenbezogener Daten aus KI-Modellen bleibt technisch und rechtlich eine Herausforderung – Verlernen gilt als möglicher Ansatz.(Bild: ©  tadamichi - stock.adobe.com)
Das Löschen personenbezogener Daten aus KI-Modellen bleibt technisch und rechtlich eine Herausforderung – Verlernen gilt als möglicher Ansatz.
(Bild: © tadamichi - stock.adobe.com)

Wenn KI-Systeme trainiert werden, kann es schnell zu Datenpannen kommen, selbst dann, wenn ein Unternehmen glaubt, keine personenbezogenen Daten zu verwenden oder eine Rechtsgrundlage für die Verarbeitung zu haben. Bei einem Unternehmen, das zum Beispiel ein KI-basiertes Forderungsmanagement anbietet, kann der Datenschutz relevant werden, wenn die vorgebliche Anonymisierung der Daten der Schuldner zum Training der eingesetzten KI-Modelle nicht wie gedacht zu anonymen Daten ohne Re-Identifizierungsmöglichkeit führt.

Ein anderes, reales Beispiel ist eine Immobilienvermittlungsplattform, bei der der Betreiber die abgeschlossene und neu hinzukommende Kommunikation mit Kunden für das Training eines KI-Systems zur effizienteren Bearbeitung von Kundenanfragen nutzte, ohne jedoch die Kunden auf diese Verarbeitung hinzuweisen.

In solchen Fällen würde man als Unternehmen gerne die personenbezogenen Daten aus der angelernten KI entfernen. Das Löschen der personenbezogenen Daten kann ebenfalls zur Pflicht werden, wenn die Betroffenen dies verlangen. Doch geht das überhaupt, das nachträgliche Löschen personenbezogener Daten aus trainierten KI-Modellen?

Datenlöschen bei KI

Die Aufsichtsbehörden für den Datenschutz haben sich schon mehrfach zu den Herausforderungen geäußert, wenn es um die Löschung personenbezogener Daten nach einem KI-Training geht. So erklärte das BayLDA (Bayerisches Landesamt für Datenschutzaufsicht): „Bei einem Löschersuchen in Bezug auf ein personenbeziehbares KI-Modell wird – je nach KI-Technologie – geprüft, ob personenbezogene Daten im KI-Modell direkt ermittelbar sind oder ob diese eventuell nur mit Zusatzinformationen (z. B. konkreter Prompt) aus einem KI-Modell abgeleitet werden können.“

Das BayLDA fährt fort: „Sofern eine Löschung in einem KI-Modell technisch ohne Beeinträchtigung des Gesamtmodells möglich ist, ist der Löschvorgang auch durchzuführen. Sollten andererseits personenbezogene Daten nur mittels Zusatzinformationen (z. B. Prompts) aus einem KI-Modell ermittelbar sein, dann besteht eine Möglichkeit des technischen Löschens darin, mittels Nachtraining die spezifisch zu löschende personenbezogene KI-Ausgabe mittels Anpassung der internen (Wahrscheinlichkeits-)Parameter umzusetzen.“

Der Ansatz ist also, durch Nachtraining die Wahrscheinlichkeit zu minimieren, dass die personenbezogenen Daten noch ausgegeben werden („vergessendes Lernen“). Der für den öffentlichen Bereich zuständige Landesdatenschutzbeauftragte von Bayern sieht aber Schwierigkeiten mit der Umsetzung des Rechts auf Löschung nach einem KI-Training: „Das Recht auf Löschung lässt sich im Fall von einmal ins Training der KI eingeflossenen personenbezogenen Daten möglicherweise kaum umsetzen, ohne die KI zurückzusetzen und neu zu trainieren, was oft nicht wirtschaftlich umsetzbar ist.“

Selbst bei der Verwendung pseudonymer Daten sieht er mögliche Probleme: „Auch wenn die Trainingsdaten vorab pseudonymisiert worden sind, kann es sein, dass durch die schiere Menge an Datenpunkten derselben Person, diese wieder eindeutig zugeordnet und so die Pseudonymisierung wieder rückgängig gemacht werden kann.“

Damit ein KI-Modell nach dem Training als „anonym“ eingestuft werden kann, sollte es sehr unwahrscheinlich sein, Personen, deren Daten zur Erstellung des Modells verwendet wurden, direkt oder indirekt zu identifizieren und solche personenbezogenen Daten durch Abfragen aus dem Modell zu extrahieren, wie der Europäische Datenschutzausschuss erklärte.

Wenn die KI umlernen soll

Wie aber könnte man eine KI nachtrainieren oder umlernen („Machine-Unlearning“) lassen, damit der unerwünschte Personenbezug möglichst verschwindet? Hierzu macht der Landesdatenschutzbeauftragte von Bayern deutlich: „Sind die Daten einmal in ein KI-System eingeflossen, gestaltet sich die Situation noch komplizierter: Einzelne Daten können grundsätzlich nicht wieder ,heraustrainiert‘ werden. Vielmehr müsste das jeweilige Modell mit einem aktualisierten Trainingsdatensatz ,fortgebildet‘ werden (was mit erheblichen Kosten verbunden wäre).“

Der Europäische Datenschutzbeauftragte (EDPS) hat das Machine Unlearning ebenfalls untersucht. Methoden zum „Verlernen“ lassen sich demnach in zwei Typen unterteilen: exaktes Verlernen und ungefähres Verlernen. Beim exakten Unlearning besteht das Ziel darin, den Einfluss bestimmter Datenpunkte zu entfernen, als wären sie nie Teil des Trainingsprozesses gewesen. Dies kann erreicht werden, indem das Modell nach dem Entfernen der spezifischen Daten von Grund auf neu trainiert wird.

Jetzt Newsletter abonnieren

Täglich die wichtigsten Infos zu Data-Storage und -Management

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung. Die Einwilligungserklärung bezieht sich u. a. auf die Zusendung von redaktionellen Newslettern per E-Mail und auf den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern (z. B. LinkedIn, Google, Meta).

Aufklappen für Details zu Ihrer Einwilligung

Das ungefähre Verlernen zielt darauf ab, den Einfluss bestimmter Datenpunkte aus dem Modell zu entfernen oder zu reduzieren, allerdings auf Kosten der Präzision. Anstatt das Modell neu zu trainieren, wird es aktualisiert, um den Einfluss der zu „vergessenen“ Daten zu verringern. Dabei kommen Techniken wie die Anpassung von Modellgewichten oder die Anwendung von Korrekturfaktoren zum Einsatz, wie der EDPS erklärt. Diese Näherungsmethoden können jedoch Spuren in den Daten hinterlassen, was bei sensiblen Anwendungen problematisch sein kann.

Maschinelles Verlernen kann aus Sicht des EDPS eine wichtige Rolle dabei spielen, Einzelpersonen bei der Ausübung ihrer Rechte gemäß den Datenschutzbestimmungen zu unterstützen und den Verantwortlichen eine größere Kontrolle über die damit verbundenen Aktivitäten zur Verarbeitung personenbezogener Daten zu ermöglichen.

Aber: Maschinelles Verlernen erfordert Prüfbarkeit und Verifizierung, um sicherzustellen, dass personenbezogene Daten erfolgreich aus den Modellen gelöscht wurden. Aus Sicht der Datensicherheit besonders wichtig: Das Verlernen birgt Risiken im Zusammenhang mit der unbeabsichtigten Offenlegung von Daten. Modelle, die „verlernt“ haben, könnten Angriffen ausgesetzt sein, beispielsweise Angriffe zur Rekonstruktion privater Informationen, die darauf abzielen, herauszufinden, welche personenbezogenen Daten verlernt wurden. Die Unterschiede in den Modellausgaben vor und nach dem Verlernen könnten unbeabsichtigt Details über die gelöschten Daten preisgeben und so die Privatsphäre gefährden. Notwendig sind deshalb robuste Mechanismen, um sicherzustellen, dass Verlern-Prozesse keine neuen Schwachstellen schaffen, so der EDPS.

KI-Training mit möglichst wenig Personenbezug

Um die Schwierigkeiten mit dem Löschen personenbezogener Daten oder dem Nachtrainieren von Modellen zu vermeiden, sollte der Personenbezug am besten vor dem Training bereits minimiert werden. Hier kommen zum Beispiel synthetische Daten ins Spiel. Synthetische Daten sind künstliche Daten, die aus Originaldaten und einem darauf trainierten Modell generiert werden, die Eigenschaften und Struktur der Originaldaten zu reproduzieren, so der EDPS. Das bedeutet, dass synthetische Daten und Originaldaten bei derselben statistischen Analyse sehr ähnliche Ergebnisse liefern sollten.

Damit man als Unternehmen aber mit synthetischen Daten die eigenen KI-Systeme trainieren kann, werden diese in großer Zahl und hoher Qualität benötigt. Aus diesem Grund setzt man auf KI-Verfahren, mit denen synthetische Daten für das Training einer anderen KI generiert werden sollen. Wer diesen Weg nutzen möchte, also die KI-Erzeugung synthetischer Daten für KI, findet dazu bereits eine Reihe von Projekten.

(ID:50616985)