Mobile-Menu

Kommentar von von Ivana Bartoletti, Wipro Synthetische Daten – Datenschutz-Universallösung oder Governance-Herausforderung?

Von Ivana Bartoletti 5 min Lesedauer

Anbieter zum Thema

Daten werden oft als das neue Öl bezeichnet. Auch wenn der Vergleich hinkt (Daten sind wiederverwendbar, Öl nicht), so vermittelt er doch die Bedeutung einer wertvollen Ressource, die Innovationen anregt, Entscheidungen beeinflusst und die Weltwirtschaft antreibt. Das derzeitige Modell der Datenerfassung und -nutzung wirft jedoch erhebliche Bedenken hinsichtlich Datenschutz, Umweltbelastung und ethischer Aspekte auf. Während wir uns mit diesen Herausforderungen auseinandersetzen, werden synthetische Daten oft als potenzielle Lösung gesehen – allerdings eine, die sowohl Chancen als auch Risiken birgt.

Die Autorin: Ivana Bartoletti ist Global Chief Privacy & AI Governance Officer bei Wipro.(Bild:  Wipro)
Die Autorin: Ivana Bartoletti ist Global Chief Privacy & AI Governance Officer bei Wipro.
(Bild: Wipro)

Die schiere Menge der täglich generierten und gesammelten Daten ist für die menschliche Vorstellungskraft kaum greifbar: Schätzungen zufolge werden weltweit pro Tag etwa 2,5 Trillionen Bytes an Daten erzeugt. Darunter fallen alle Daten von Social-Media-Beiträgen und Online-Käufen bis hin zu Sensordaten aus dem IoT (Internet of Things) sowie Satellitenbilder. In einer 2019 eingeleiteten Prognose wird bis 2025 geschätzt, dass weltweit täglich 463 Exabyte an Daten generiert werden – das entspricht einer Menge von 212.765.957 DVDs. Diese massive Datengenerierung und -sammlung hat allerdings ihren Preis, sowohl im Hinblick auf die Privatsphäre des Einzelnen als auch für die Umwelt.

Auswirkungen auf den Datenschutz

Die umfangreiche Erfassung personenbezogener Daten birgt von einem Privatsphäre-Standpunkt aus erhebliche Risiken. Datenpannen werden immer häufiger und legen sensible Informationen von Millionen von Nutzern offen. Darüber hinaus ermöglicht die Aggregation von Daten aus verschiedenen Quellen eine detaillierte Profilerstellung von Einzelpersonen, was potenziell zu diskriminierenden Praktiken in Bereichen wie Beschäftigung, Versicherung und Kreditwürdigkeitsprüfung führen kann.

Ein Mangel an Transparenz bei der Datenerfassung und -nutzung verschärft diese Bedenken weiter. Viele Nutzer sind sich nicht darüber bewusst, in welchem Umfang ihre Daten gesammelt, weitergegeben und monetarisiert werden. Diese Intransparenz untergräbt das Vertrauen in digitale Dienste und wirft Fragen nach dem Machtverhältnis zwischen Technologieunternehmen und dem individuellen Nutzer auf.

Auswirkungen aus Umweltperspektive

Die Datenwirtschaft hat zudem einen erheblichen ökologischen Fußabdruck. Rechenzentren, die die riesigen Mengen an gesammelten Daten speichern und verarbeiten, weisen einen enormen Energieverbrauch auf. Schätzungen zufolge entfällt etwa ein Prozent des weltweiten Stromverbrauchs auf Rechenzentren. Da die Datengenerierung weiterhin exponentiell wächst, steigt auch der Energiebedarf für deren Speicherung und Verarbeitung. Das wiederum zieht CO2-Emissionen mit sich und trägt zum Klimawandel bei.

Sind synthetische Daten eine Alternative?

Unter synthetischen Daten versteht man künstlich generierte Informationen, die die statistischen Eigenschaften realer Daten imitieren, ohne tatsächliche personenbezogene Informationen zu enthalten. Dieser Ansatz bietet mehrere Vorteile, wenn es darum geht, die mit dem aktuellen Modell zur Datenerhebung verbundenen Probleme zu beheben:

  • 1. Verbesserter Datenschutz: Durch die Verwendung synthetischer Daten können Organisationen Anwendungen entwickeln und testen, Machine-Learning-Modelle trainieren und Forschung betreiben, ohne die Offenlegung realer personenbezogener Informationen befürchten zu müssen. Auch bei der Entwicklung digitaler Zwillinge kann der Ansatz einen wertvollen Beitrag leisten. So können Datenschutzrisiken im Zusammenhang mit Datenpannen und unbefugtem Zugriff erheblich reduziert werden. In diesem Sinne können synthetische Daten unter die breite Kategorie der Technologien zum Schutz der Privatsphäre (Privacy Enhancing Technologies, PETs) gezählt werden.
  • 2. Geringerer Bedarf nach Datenerfassung: Synthetische Daten können reale Daten in vielen Anwendungen ergänzen oder sogar ersetzen, wodurch potenziell der Bedarf nach einer umfangreichen Erfassung von Informationen über Einzelpersonen reduziert wird. Dies könnte dazu beitragen, Datenschutzbedenken im Zusammenhang mit dem derzeitigen Daten-Extraktivismus-Modell zu mindern.
  • 3. Umweltvorteile: Durch einen reduzierten Bedarf nach der Speicherung und Verarbeitung großer Mengen realer Nutzerinformationen können synthetische Daten dazu beitragen, den Energieverbrauch sowie CO2-Fußabdruck von Rechenzentren zu verringern. Diese Entwicklung steht im Einklang mit den Bemühungen, die digitale Wirtschaft nachhaltiger zu gestalten.
  • 4. Verbesserte Datenverfügbarkeit: Synthetische Daten können mit dem Ziel generiert werden, seltene Szenarien oder unterrepräsentierte Gruppen darzustellen und so Probleme wie Verzerrungen und Unterrepräsentation in bestehenden Datensätzen zu beheben. Das kann zu inklusiveren und faireren KI-Systemen und datengesteuerten Entscheidungsprozessen führen, was beispielsweise wichtige Auswirkungen auf den Gesundheitssektor haben kann. Denn hier sind die historisch gewachsenen Datengrundlagen noch längst nicht verzerrungsfrei.
  • 5. Einhaltung von Datenschutzbestimmungen: Die Verwendung synthetischer Daten kann Unternehmen dabei unterstützen, Datenschutzbestimmungen wie die DSGVO einzuhalten. Denn es erfolgt keine Verarbeitung realer personenbezogener Daten.
  • 6. Kosteneffizienz: Die Generierung synthetischer Daten kann sich als kostengünstiger erweisen als das Sammeln und Verwalten großer Mengen echter Daten – insbesondere für Szenarien, die selten oder im realen Leben schwierig zu erfassen sind.

Fallstricke und Herausforderungen mit synthetischen Daten

Obwohl dieser Daten-Typ viele Vorteile bereithält, sind auch die damit verbundenen Herausforderungen und potenziellen Nachteile nicht zu vernachlässigen:

  • 1. Rückidentifizierungs-Risiken: Obwohl in diesem Kontext keine realen personenbezogenen Informationen im Spiel sind, besteht dennoch das Risiko, dass Personen rückidentifiziert werden können. Das kann der Fall sein, wenn die synthetischen Daten Muster aus dem Originaldatensatz zu genau nachahmen. Sicherzustellen, dass bei der Nutzung synthetischer Daten Vertraulichkeit gewährleistet wird und diese dennoch nützlich bleiben, ist eine große Herausforderung, die ein sorgfältiges Abwägen und fortschrittliche Methoden erfordert.
  • 2. Qualität: Es ist entscheidend, dass synthetische Daten die Komplexität und Nuancen realer Daten genau wiedergeben. Wenn die verwendeten Datensätze zentrale Muster oder Zusammenhänge in realen Daten nicht erfassen, kann dies zu ungenauen Modellen oder fehlerhaften Erkenntnissen in Analyse- oder Machine-Learning-Anwendungen führen.
  • 3. Effizienz-Abwägungen: Während synthetische Daten den Bedarf nach echten Datensammlungen reduzieren können, erfordert die Generierung hochwertiger synthetischer Daten oft erhebliche Rechenleistungen. Dies kann wiederum Einschnitte bei den genannten Umweltvorteilen bedeuten, insbesondere wenn häufig große Mengen synthetischer Werte generiert werden müssen.

Eine Frage der Balance

Mit Blick auf die Herausforderungen einer datenbasierten Wirtschaft stellen synthetische Daten ein vielversprechendes Werkzeug dar. Sie bieten eine Möglichkeit, die Leistungsfähigkeit von Datenanalysen und maschinellem Lernen zu nutzen und gleichzeitig einige der drängendsten Bedenken im Zusammenhang mit dem Daten-Extraktivismus zu mindern. Entscheidend ist, synthetische Daten aus einem ausgewogenen Blickwinkel heraus zu betrachten: Sie können zwar Datenschutzaspekte erheblich verbessern und Umweltbelastungen durch Datenspeicherung senken, sind aber kein Allheilmittel für alle datenbezogenen Probleme. Herausforderungen wie potenzielle Rück-Identifizierungen, die Komplexität der Generierung tatsächlich repräsentativer Daten und die benötigten Rechenkapazitäten sollten ebenfalls sorgfältig geprüft werden.

Zur effektiven Nutzung synthetischer Daten werden künftig die Entwicklung robuster Methoden zur Generierung, Validierung und Nutzung zentral sein. Dazu gehört die Weiterentwicklung von Verfahren zur Erstellung realistischerer und vielfältigerer synthetischer Datensätze, die Implementierung starker Sicherheitsvorkehrungen zur Vorbeugung von Rück-Identifizierungen sowie die Festlegung klarer ethischer Richtlinien und regulatorischer Rahmenbedingungen für ihre Anwendung.

Artikelfiles und Artikellinks

(ID:50296967)

Jetzt Newsletter abonnieren

Täglich die wichtigsten Infos zu Data-Storage und -Management

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung. Die Einwilligungserklärung bezieht sich u. a. auf die Zusendung von redaktionellen Newslettern per E-Mail und auf den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern (z. B. LinkedIn, Google, Meta).

Aufklappen für Details zu Ihrer Einwilligung