Die Welle generativer AI-Anwendungen, die ChatGPT ausgelöst hat, verändert die Bedeutung und das Management unstrukturierter Daten. Das zeigt eine aktuelle Untersuchung von Komprise.
Künstliche Intelligenz beeinflusst nicht zuletzt den Umgang mit unstrukturierten Daten.
(Bild: sdecoret - stock.adobe.com)
Welche Rolle spielen unstrukturierte Daten derzeit und in Zukunft in den Unternehmen? Mit dieser Frage beschäftigte sich eine im Juni 2023 durchgeführte Umfrage des Datenmanagementspezialisten Komprise.
Befragt wurden 300 Entscheidungsträger aus den Bereichen Storage IT und Management. Sie kamen aus Unternehmen über 1.000 Beschäftigte in den USA und Großbritannien. Obwohl die Ergebnisse aufgrund kultureller Eigenheiten daher nur begrenzt übertragbar sind, eröffnet die Untersuchung interessante Einblicke in das Thema.
Der wohl größte Einfluss auf die Welt der unstrukturierten Daten gehe, so Komprise, von den sich ausbreitenden AI-basierten Geschäftsmodellen aus. So werde dem Markt für generative AI nach Daten von Bloomberg ein Wachstum des Marktvolumens von 40 Milliarden US-Dollar 2022 auf 1,3 Billionen Dollar in zehn Jahren prognostiziert.
Top-Priorität: Vorbereitung auf AI
Die Bedeutung unstrukturierter Daten zeigt sich drin, dass 73 Prozent der Befragten mehr als 30 Prozent ihres IT-Budgets in Storage stecken. Die Hälfte der Befragten verwaltet mehr als 5 Petabyte, 32 Prozent sogar mehr als 10 PB, wiederum die Hälfte davon mehr als 50 PB.
Kein Wunder, dass die meisten Befragten (31 %) die Vorbereitung auf die Nutzung von AI als das wichtigste Storage-Thema der nächsten 12 Monate sehen. Auf Platz zwei rangiert die Optimierung der Cloud-Kosten (22 %), auf Platz drei die Migration von mehr Daten in die Cloud (18 %).
Diese Vorbereitung bedeutet laut Komprise vor allem die Beseitigung nicht mehr benötigter Storage. So sollen nötige Gelder für die angestrebten AI-Initiativen freigesetzt werden.
AI-Tools sind nicht überall willkommen
Zur Datenhandhabung gehört auch die Auswahl der richtigen Management- und anderweitigen Werkzeuge. Hierbei spielen Governance und Compliance für Unternehmen eine wichtige Rolle. Niemand will schließlich unternehmenswichtige Daten in ein anonymes Draußen entlassen oder in datenethische Fallen tappen. 44 Prozent der Befragte begrenzen daher Werkzeuge, Daten oder beides.
Die derzeitige Unsicherheit spiegelt sich auch in den Daten zu den unternehmensweiten AI-Plänen wider. Hier geben 26 Prozent an, dass noch keine verbindlichen Regeln definiert wurden und man sich noch im Experimentierstadium befindet. 24 Prozent lassen Angestellte alle Daten, aber nur zugelassene AI-Services nutzen. In 21 Prozent der Unternehmen unterliegen die Mitarbeitenden keinerlei Beschränkungen, und 20 Prozent beschränken neben den AI-Tools auch die nutzbaren Datensätze. Und in 10 Prozent der Unternehmen dürfen intern gar keine AI-Tools verwendet werden.
Viele Sorgen rund um generative AI
Viele Sorgen bezüglich des Datenmanagements ranken sich um die Nutzung generativer AI. Am gefürchtetsten sind Verletzungen von Datenschutz und Datensicherheit (28 %). Auch intransparente Datenquellen und das Risiko, ungenaue oder vorurteilsbeladene Daten zu verwenden, beschäftigen 21 Prozent der Befragte.
Die unklare Rechtssituation um die aus LLM-Nutzung abgeleiteten Arbeitsergebnisse beunruhigt 16,6 Prozent. Etwa ebenso viele sehen die Gefahr, dass ihre betriebswichtigen Daten ins LLM eines Anbieters migrieren (16 %), was bedeutet, dass sie dort allgemein genutzt werden können. Schließlich wird die Verletzung fremden geistigen Eigentums befürchtet (10,8 %).
Selbstmanagement bevorzugt
Um von AI-Anwendungen optimal zu profitieren, wollen 40 Prozent Storage, Datenmanagement und Sicherheitstools aufeinander abstimmen. 84 Prozent wollen ein teilweises Selbstmanagement der Daten durch die Nutzer.
Dabei bevorzugen die meisten Lösungen (35 %), bei denen Anwender analytische Daten zu ihrer Storage-Nutzung erhalten, benötigte Daten herausfiltern sowie eigene Workflows und Datenservices generieren können. 25 Prozent erlauben ihren Anwendern das komplette Datenmanagement (zum Beispiel inklusive Migration). 16 Prozent meinen, Endanwender sollten keine Datenmanagementfunktionen übernehmen.
AI-Umgebung on- oder offsite?
Das Datenmanagement sieht sich einer Reihe wichtiger Herausforderungen gegenüber. Die wichtigste (47 % Nennungen) besteht darin, unterbrechungsfreie Datenmigrationen zu realisieren. Fast genauso viele nennen die Vorbereitung der Datenumgebungen auf die AI-Nutzung (46 %). Der Grund dafür sind die vielen Unbekannten, mit denen das IT-Management hier rechnen muss.
Stand: 08.12.2025
Es ist für uns eine Selbstverständlichkeit, dass wir verantwortungsvoll mit Ihren personenbezogenen Daten umgehen. Sofern wir personenbezogene Daten von Ihnen erheben, verarbeiten wir diese unter Beachtung der geltenden Datenschutzvorschriften. Detaillierte Informationen finden Sie in unserer Datenschutzerklärung.
Einwilligung in die Verwendung von Daten zu Werbezwecken
Ich bin damit einverstanden, dass die Vogel IT-Medien GmbH, Max-Josef-Metzger-Straße 21, 86157 Augsburg, einschließlich aller mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen (im weiteren: Vogel Communications Group) meine E-Mail-Adresse für die Zusendung von Newslettern und Werbung nutzt. Auflistungen der jeweils zugehörigen Unternehmen können hier abgerufen werden.
Der Newsletterinhalt erstreckt sich dabei auf Produkte und Dienstleistungen aller zuvor genannten Unternehmen, darunter beispielsweise Fachzeitschriften und Fachbücher, Veranstaltungen und Messen sowie veranstaltungsbezogene Produkte und Dienstleistungen, Print- und Digital-Mediaangebote und Services wie weitere (redaktionelle) Newsletter, Gewinnspiele, Lead-Kampagnen, Marktforschung im Online- und Offline-Bereich, fachspezifische Webportale und E-Learning-Angebote. Wenn auch meine persönliche Telefonnummer erhoben wurde, darf diese für die Unterbreitung von Angeboten der vorgenannten Produkte und Dienstleistungen der vorgenannten Unternehmen und Marktforschung genutzt werden.
Meine Einwilligung umfasst zudem die Verarbeitung meiner E-Mail-Adresse und Telefonnummer für den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern wie z.B. LinkedIN, Google und Meta. Hierfür darf die Vogel Communications Group die genannten Daten gehasht an Werbepartner übermitteln, die diese Daten dann nutzen, um feststellen zu können, ob ich ebenfalls Mitglied auf den besagten Werbepartnerportalen bin. Die Vogel Communications Group nutzt diese Funktion zu Zwecken des Retargeting (Upselling, Crossselling und Kundenbindung), der Generierung von sog. Lookalike Audiences zur Neukundengewinnung und als Ausschlussgrundlage für laufende Werbekampagnen. Weitere Informationen kann ich dem Abschnitt „Datenabgleich zu Marketingzwecken“ in der Datenschutzerklärung entnehmen.
Falls ich im Internet auf Portalen der Vogel Communications Group einschließlich deren mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen geschützte Inhalte abrufe, muss ich mich mit weiteren Daten für den Zugang zu diesen Inhalten registrieren. Im Gegenzug für diesen gebührenlosen Zugang zu redaktionellen Inhalten dürfen meine Daten im Sinne dieser Einwilligung für die hier genannten Zwecke verwendet werden. Dies gilt nicht für den Datenabgleich zu Marketingzwecken.
Recht auf Widerruf
Mir ist bewusst, dass ich diese Einwilligung jederzeit für die Zukunft widerrufen kann. Durch meinen Widerruf wird die Rechtmäßigkeit der aufgrund meiner Einwilligung bis zum Widerruf erfolgten Verarbeitung nicht berührt. Um meinen Widerruf zu erklären, kann ich als eine Möglichkeit das unter https://contact.vogel.de abrufbare Kontaktformular nutzen. Sofern ich einzelne von mir abonnierte Newsletter nicht mehr erhalten möchte, kann ich darüber hinaus auch den am Ende eines Newsletters eingebundenen Abmeldelink anklicken. Weitere Informationen zu meinem Widerrufsrecht und dessen Ausübung sowie zu den Folgen meines Widerrufs finde ich in der Datenschutzerklärung.
Die Investitionen in eigene Infrastrukturen sind auf jeden Fall hoch – so schätzt Forbes laut der Komprise-Umfrage, dass die Serverinfrastruktur und die Betriebskosten von AI-ready-DC weltweit bis 2028 76 Milliarden US-Dollar erreichen werden. Gleichzeitig ist auch die Auslagerung von AI-Aufgaben und -Daten in die Cloud zu prüfen. Die Hyperscaler stellen hier Services bereit, die Compute und Storage bündeln. Eine genaue Kostenkalkulation ist aber schwierig.
Weitere Herausforderungen sind ein sehr schnelles Datenwachstum (35 %), für die Anwender intransparente Storage-Kosten (34 %), rechtliche Regeln für die Datenhandhabung (30 %) und unzureichende Informationen über die optimale Datenplatzierung (23 %), so dass Daten zu teuer gespeichert werden.
Anstrengungen im unstrukturierten Datenmanagement scheinen sich besonders auszuzahlen. Laut der Komprise-Umfrage können Unternehmen mit optimierter Platzierung unstrukturierter Daten und ihrer Sicherung die Kosten um 70 Prozent senken können.
Kapazitätsüberwachung dringend gewünscht
Kein Wunder, dass sich 44 Prozent der Befragten von ihrer Datenmanagementlösung wünschen, dass sie die Kapazitätsauslastung überwacht und entsprechende Alarme sendet. 41 Prozent wünschen sich von ihrer Software regelbasierte Automatisierung. So können Daten etwa automatisch auf günstigere Medien verschoben oder zur Löschung freigegeben werden. Die drittwichtigste Priorität sind Fähigkeiten zum Selbstbedienungsmanagement.
Weitere Themen: Daten-Tagging und die Möglichkeit, mehrere Datensilos zu durchsuchen (33 %), ein globaler Datenindex und Data-Governance für AI/ML-Applikationen (je 28 %).
Anwender wollen Lösungen für das Management unstrukturierter Daten insbesondere für den Datenschutz (60 %) einsetzen. Das belegt die immer weiter steigende Bedeutung des Themas. Danach folgen Selbstbedienung der Anwender bei Suche und Analyse in diesem Datentyp (49 %). Lösungen sollen helfen, Regeln für die Langfristspeicherung sowie andere Compliance-Themen einzuhalten (40 %), und natürlich sollen sie helfen, Daten zu suchen und zu löschen (30 %).
Fazit
Die heraufdämmernde AI-Welt verändert auch Storage. Insbesondere im Bereich der unstrukturierten Daten ist die Vorbereitung für den AI-Einsatz eine Top-Priorität. Dabei kommt es Anwendern darauf an, dass AI-Werkzeuge und Daten zu AI-Zwecken strikt an Regeln orientiert genutzt werden.
Der Zugriff auf Daten und ihre Nutzung wird immer stärker als Service verstanden. Am liebsten für die Selbstbedienung. Dabei muss jederzeit der Datenschutz gewährleistet sein. Entstehende Kostenprobleme durch schnelles Datenwachstum sollen Managementwerkzeuge über entsprechende Überwachungs-, Alerting- und Automatisierungsfunktionen lindern oder beheben. Transparenz ist dabei oberstes Gebot.
Aktuelles eBook
Storage für HPC & KI
eBook „Storage für HPC & KI“
(Bild: Storage-Insider)
Speichersysteme für das HPC und für die verschiedenen Disziplinen der KI sind hohen Anforderungen ausgesetzt. Denn sie müssen enorme Datenmengen in kürzester Zeit bereitstellen oder sammeln. Wie können diese Herausforderungen gemeistert werden?
Die Themen im Überblick:
Aktuelle Trends in der Künstlichen Intelligenz
High-Performance Computing – Explosion der Innovationen