Kann man personenbezogene Daten aus einer bereits trainierten KI wirklich löschen? Diese Frage treibt Datenschutzbehörden und Unternehmen gleichermaßen um. Während einige auf „vergessendes Lernen“ setzen, sehen Experten erhebliche technische und rechtliche Hürden. Klar ist: Wer KI-Modelle trainiert, sollte den Personenbezug schon vorher minimieren, sonst droht ein Compliance-Risiko.
Das Löschen personenbezogener Daten aus KI-Modellen bleibt technisch und rechtlich eine Herausforderung – Verlernen gilt als möglicher Ansatz.
Wenn KI-Systeme trainiert werden, kann es schnell zu Datenpannen kommen, selbst dann, wenn ein Unternehmen glaubt, keine personenbezogenen Daten zu verwenden oder eine Rechtsgrundlage für die Verarbeitung zu haben. Bei einem Unternehmen, das zum Beispiel ein KI-basiertes Forderungsmanagement anbietet, kann der Datenschutz relevant werden, wenn die vorgebliche Anonymisierung der Daten der Schuldner zum Training der eingesetzten KI-Modelle nicht wie gedacht zu anonymen Daten ohne Re-Identifizierungsmöglichkeit führt.
Ein anderes, reales Beispiel ist eine Immobilienvermittlungsplattform, bei der der Betreiber die abgeschlossene und neu hinzukommende Kommunikation mit Kunden für das Training eines KI-Systems zur effizienteren Bearbeitung von Kundenanfragen nutzte, ohne jedoch die Kunden auf diese Verarbeitung hinzuweisen.
In solchen Fällen würde man als Unternehmen gerne die personenbezogenen Daten aus der angelernten KI entfernen. Das Löschen der personenbezogenen Daten kann ebenfalls zur Pflicht werden, wenn die Betroffenen dies verlangen. Doch geht das überhaupt, das nachträgliche Löschen personenbezogener Daten aus trainierten KI-Modellen?
Datenlöschen bei KI
Die Aufsichtsbehörden für den Datenschutz haben sich schon mehrfach zu den Herausforderungen geäußert, wenn es um die Löschung personenbezogener Daten nach einem KI-Training geht. So erklärte das BayLDA (Bayerisches Landesamt für Datenschutzaufsicht): „Bei einem Löschersuchen in Bezug auf ein personenbeziehbares KI-Modell wird – je nach KI-Technologie – geprüft, ob personenbezogene Daten im KI-Modell direkt ermittelbar sind oder ob diese eventuell nur mit Zusatzinformationen (z. B. konkreter Prompt) aus einem KI-Modell abgeleitet werden können.“
Das BayLDA fährt fort: „Sofern eine Löschung in einem KI-Modell technisch ohne Beeinträchtigung des Gesamtmodells möglich ist, ist der Löschvorgang auch durchzuführen. Sollten andererseits personenbezogene Daten nur mittels Zusatzinformationen (z. B. Prompts) aus einem KI-Modell ermittelbar sein, dann besteht eine Möglichkeit des technischen Löschens darin, mittels Nachtraining die spezifisch zu löschende personenbezogene KI-Ausgabe mittels Anpassung der internen (Wahrscheinlichkeits-)Parameter umzusetzen.“
Der Ansatz ist also, durch Nachtraining die Wahrscheinlichkeit zu minimieren, dass die personenbezogenen Daten noch ausgegeben werden („vergessendes Lernen“). Der für den öffentlichen Bereich zuständige Landesdatenschutzbeauftragte von Bayern sieht aber Schwierigkeiten mit der Umsetzung des Rechts auf Löschung nach einem KI-Training: „Das Recht auf Löschung lässt sich im Fall von einmal ins Training der KI eingeflossenen personenbezogenen Daten möglicherweise kaum umsetzen, ohne die KI zurückzusetzen und neu zu trainieren, was oft nicht wirtschaftlich umsetzbar ist.“
Selbst bei der Verwendung pseudonymer Daten sieht er mögliche Probleme: „Auch wenn die Trainingsdaten vorab pseudonymisiert worden sind, kann es sein, dass durch die schiere Menge an Datenpunkten derselben Person, diese wieder eindeutig zugeordnet und so die Pseudonymisierung wieder rückgängig gemacht werden kann.“
Damit ein KI-Modell nach dem Training als „anonym“ eingestuft werden kann, sollte es sehr unwahrscheinlich sein, Personen, deren Daten zur Erstellung des Modells verwendet wurden, direkt oder indirekt zu identifizieren und solche personenbezogenen Daten durch Abfragen aus dem Modell zu extrahieren, wie der Europäische Datenschutzausschuss erklärte.
Wenn die KI umlernen soll
Wie aber könnte man eine KI nachtrainieren oder umlernen („Machine-Unlearning“) lassen, damit der unerwünschte Personenbezug möglichst verschwindet? Hierzu macht der Landesdatenschutzbeauftragte von Bayern deutlich: „Sind die Daten einmal in ein KI-System eingeflossen, gestaltet sich die Situation noch komplizierter: Einzelne Daten können grundsätzlich nicht wieder ,heraustrainiert‘ werden. Vielmehr müsste das jeweilige Modell mit einem aktualisierten Trainingsdatensatz ,fortgebildet‘ werden (was mit erheblichen Kosten verbunden wäre).“
Der Europäische Datenschutzbeauftragte (EDPS) hat das Machine Unlearning ebenfalls untersucht. Methoden zum „Verlernen“ lassen sich demnach in zwei Typen unterteilen: exaktes Verlernen und ungefähres Verlernen. Beim exakten Unlearning besteht das Ziel darin, den Einfluss bestimmter Datenpunkte zu entfernen, als wären sie nie Teil des Trainingsprozesses gewesen. Dies kann erreicht werden, indem das Modell nach dem Entfernen der spezifischen Daten von Grund auf neu trainiert wird.
Stand: 08.12.2025
Es ist für uns eine Selbstverständlichkeit, dass wir verantwortungsvoll mit Ihren personenbezogenen Daten umgehen. Sofern wir personenbezogene Daten von Ihnen erheben, verarbeiten wir diese unter Beachtung der geltenden Datenschutzvorschriften. Detaillierte Informationen finden Sie in unserer Datenschutzerklärung.
Einwilligung in die Verwendung von Daten zu Werbezwecken
Ich bin damit einverstanden, dass die Vogel IT-Medien GmbH, Max-Josef-Metzger-Straße 21, 86157 Augsburg, einschließlich aller mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen (im weiteren: Vogel Communications Group) meine E-Mail-Adresse für die Zusendung von Newslettern und Werbung nutzt. Auflistungen der jeweils zugehörigen Unternehmen können hier abgerufen werden.
Der Newsletterinhalt erstreckt sich dabei auf Produkte und Dienstleistungen aller zuvor genannten Unternehmen, darunter beispielsweise Fachzeitschriften und Fachbücher, Veranstaltungen und Messen sowie veranstaltungsbezogene Produkte und Dienstleistungen, Print- und Digital-Mediaangebote und Services wie weitere (redaktionelle) Newsletter, Gewinnspiele, Lead-Kampagnen, Marktforschung im Online- und Offline-Bereich, fachspezifische Webportale und E-Learning-Angebote. Wenn auch meine persönliche Telefonnummer erhoben wurde, darf diese für die Unterbreitung von Angeboten der vorgenannten Produkte und Dienstleistungen der vorgenannten Unternehmen und Marktforschung genutzt werden.
Meine Einwilligung umfasst zudem die Verarbeitung meiner E-Mail-Adresse und Telefonnummer für den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern wie z.B. LinkedIN, Google und Meta. Hierfür darf die Vogel Communications Group die genannten Daten gehasht an Werbepartner übermitteln, die diese Daten dann nutzen, um feststellen zu können, ob ich ebenfalls Mitglied auf den besagten Werbepartnerportalen bin. Die Vogel Communications Group nutzt diese Funktion zu Zwecken des Retargeting (Upselling, Crossselling und Kundenbindung), der Generierung von sog. Lookalike Audiences zur Neukundengewinnung und als Ausschlussgrundlage für laufende Werbekampagnen. Weitere Informationen kann ich dem Abschnitt „Datenabgleich zu Marketingzwecken“ in der Datenschutzerklärung entnehmen.
Falls ich im Internet auf Portalen der Vogel Communications Group einschließlich deren mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen geschützte Inhalte abrufe, muss ich mich mit weiteren Daten für den Zugang zu diesen Inhalten registrieren. Im Gegenzug für diesen gebührenlosen Zugang zu redaktionellen Inhalten dürfen meine Daten im Sinne dieser Einwilligung für die hier genannten Zwecke verwendet werden. Dies gilt nicht für den Datenabgleich zu Marketingzwecken.
Recht auf Widerruf
Mir ist bewusst, dass ich diese Einwilligung jederzeit für die Zukunft widerrufen kann. Durch meinen Widerruf wird die Rechtmäßigkeit der aufgrund meiner Einwilligung bis zum Widerruf erfolgten Verarbeitung nicht berührt. Um meinen Widerruf zu erklären, kann ich als eine Möglichkeit das unter https://contact.vogel.de abrufbare Kontaktformular nutzen. Sofern ich einzelne von mir abonnierte Newsletter nicht mehr erhalten möchte, kann ich darüber hinaus auch den am Ende eines Newsletters eingebundenen Abmeldelink anklicken. Weitere Informationen zu meinem Widerrufsrecht und dessen Ausübung sowie zu den Folgen meines Widerrufs finde ich in der Datenschutzerklärung.
Das ungefähre Verlernen zielt darauf ab, den Einfluss bestimmter Datenpunkte aus dem Modell zu entfernen oder zu reduzieren, allerdings auf Kosten der Präzision. Anstatt das Modell neu zu trainieren, wird es aktualisiert, um den Einfluss der zu „vergessenen“ Daten zu verringern. Dabei kommen Techniken wie die Anpassung von Modellgewichten oder die Anwendung von Korrekturfaktoren zum Einsatz, wie der EDPS erklärt. Diese Näherungsmethoden können jedoch Spuren in den Daten hinterlassen, was bei sensiblen Anwendungen problematisch sein kann.
Maschinelles Verlernen kann aus Sicht des EDPS eine wichtige Rolle dabei spielen, Einzelpersonen bei der Ausübung ihrer Rechte gemäß den Datenschutzbestimmungen zu unterstützen und den Verantwortlichen eine größere Kontrolle über die damit verbundenen Aktivitäten zur Verarbeitung personenbezogener Daten zu ermöglichen.
Aber: Maschinelles Verlernen erfordert Prüfbarkeit und Verifizierung, um sicherzustellen, dass personenbezogene Daten erfolgreich aus den Modellen gelöscht wurden. Aus Sicht der Datensicherheit besonders wichtig: Das Verlernen birgt Risiken im Zusammenhang mit der unbeabsichtigten Offenlegung von Daten. Modelle, die „verlernt“ haben, könnten Angriffen ausgesetzt sein, beispielsweise Angriffe zur Rekonstruktion privater Informationen, die darauf abzielen, herauszufinden, welche personenbezogenen Daten verlernt wurden. Die Unterschiede in den Modellausgaben vor und nach dem Verlernen könnten unbeabsichtigt Details über die gelöschten Daten preisgeben und so die Privatsphäre gefährden. Notwendig sind deshalb robuste Mechanismen, um sicherzustellen, dass Verlern-Prozesse keine neuen Schwachstellen schaffen, so der EDPS.
KI-Training mit möglichst wenig Personenbezug
Um die Schwierigkeiten mit dem Löschen personenbezogener Daten oder dem Nachtrainieren von Modellen zu vermeiden, sollte der Personenbezug am besten vor dem Training bereits minimiert werden. Hier kommen zum Beispiel synthetische Daten ins Spiel. Synthetische Daten sind künstliche Daten, die aus Originaldaten und einem darauf trainierten Modell generiert werden, die Eigenschaften und Struktur der Originaldaten zu reproduzieren, so der EDPS. Das bedeutet, dass synthetische Daten und Originaldaten bei derselben statistischen Analyse sehr ähnliche Ergebnisse liefern sollten.
Damit man als Unternehmen aber mit synthetischen Daten die eigenen KI-Systeme trainieren kann, werden diese in großer Zahl und hoher Qualität benötigt. Aus diesem Grund setzt man auf KI-Verfahren, mit denen synthetische Daten für das Training einer anderen KI generiert werden sollen. Wer diesen Weg nutzen möchte, also die KI-Erzeugung synthetischer Daten für KI, findet dazu bereits eine Reihe von Projekten.