Mobile-Menu

KI für die Datenverwaltung Wie das Dokumentenmanagement smart wird

Ein Gastbeitrag von Nico Bäumer* 7 min Lesedauer

Anbieter zum Thema

Am Thema künstliche Intelligenz kommt man heute in kaum einer Branche oder einem Geschäftsbereich mehr vorbei. So ist es kein Wunder, dass auch in der Verwaltung von Dokumenten nach Effizienzgewinnen durch die neue Technologie gesucht wird. Es gibt bereits eine Reihe nützlicher Tools und Integrationen, die Büroarbeitern viel Zeit sparen. Doch wie sieht es hinter den Kulissen aus? Nico Bäumer, CTO der d.velop AG, wirft einen Blick auf verschiedene Ansätze zur sinnvollen KI-Integration und zeigt Herausforderungen auf.

Auch wenn künstliche Intelligenz in vielen Bereichen nicht sinnvoll ist und ihre massenhafte Anwendung eine negative Umweltbilanz nach sich zieht, kann ihr richtiger Einsatz im Dokumentenmanagement zu signifikanten Arbeitserleichterungen führen.(Bild:  ©tadamichi, Getty Images via Canva.com)
Auch wenn künstliche Intelligenz in vielen Bereichen nicht sinnvoll ist und ihre massenhafte Anwendung eine negative Umweltbilanz nach sich zieht, kann ihr richtiger Einsatz im Dokumentenmanagement zu signifikanten Arbeitserleichterungen führen.
(Bild: ©tadamichi, Getty Images via Canva.com)

Nutzer von Dokumentenmanagement-Systemen (DMS), die über eine KI-Integration verfügen, können heute ganz einfach mit Texten interagieren. Die smarten Assistenten können unter anderem Dokumentarten automatisch erkennen, Inhalte in Sekundenschnelle zusammenfassen, Fragen zu Texten beantworten oder Spracheingaben verschriftlichen. Gerade bei komplexen Dokumenten wie beispielsweise Verträgen ist dies eine enorme Arbeitserleichterung. Die eigentliche Anwendung soll hier aber nicht im Vordergrund stehen, vielmehr geht es um die Integration von KI in bestehende Plattformen.

Drei Ansätze zur KI-Integration

Die häufigste Form der KI-Integration, die wir heute finden, ist die Anbindung an ein großes, universelles LLM – am bekanntesten sind vermutlich die verschiedenen GPT-Versionen von OpenAI. Doch gibt es inzwischen viele weitere Anbieter mit sehr guten Lösungen. Diese können entweder vollständig integriert werden, oder es werden einzelne Schritte in einer Prozesskette per API an einen externen Anbieter „outgesourct“, der anschließend diesen Schritt mit seinem KI-Modell bearbeitet und das Ergebnis zurückspeist. Als dritte Variante besteht die Möglichkeit, eigene KI-Modelle zu betreiben.

Jeder Ansatz hat seine Vor- und Nachteile. Die Integration der großen Anbieter ist mit dem geringsten Aufwand verbunden. Dank Customized GPTs können inzwischen sogar Anwender selbst ohne Programmierkenntnisse einfache Anwendungen erstellen. Auch die Anbindung an die API ist nicht komplex. Abgerechnet wird dabei in der Regel anhand von sogenannten Tokens, die Wortteile darstellen und jeweils einen bestimmten Betrag kosten. Einfache Anbindung und transparente Abrechnung sind also durchaus Vorteile dieses Ansatzes.

Auf der anderen Seite gibt es für einige Datenbestände strenge Compliance-Anforderungen, die besondere Vorsichtsmaßnahmen bei einer KI-Integration erfordern. Man muss sich bewusst sein, dass eingegebene Daten unter Umständen für das weitere Training von Modellen verwendet werden. Das nutzt natürlich auch den Anwendern, doch ohne weitergehende Vereinbarungen mit dem Anbieter des Modells kann dies zu Compliance-Problemen führen, unter anderem mit der DSGVO. Es ist in jedem Fall angebracht, hier eine Vereinbarung zu schließen, die besagt, dass Daten nur mit Modellen verarbeitet werden, die in europäischen Rechenzentren gehostet werden. Außerdem dürfen alle Daten nur innerhalb der EU verarbeitet werden.

Wer einen Schritt weitergehen möchte, kann auf die alternativen KI-Modelle europäischer Anbieter wie Mistral, natif, Parashift oder Aleph Alpha setzen. Letztlich gilt aber auch hier, dass es ein gewisses Vertrauen zwischen den Geschäftspartnern geben muss: Unternehmen sollten selbst dafür Sorge tragen, dass keine sensiblen Daten durch KI-Anbindungen gesicherte Umgebungen verlassen.

Es muss nicht immer Generative KI sein

Der zweite Ansatz von KI-Integration, der im Dokumentenmanagement interessant ist, ist, einzelne konventionelle Teile einer Prozesskette durch die Integration KI-gestützter Anwendungen externer App-Builder zu ersetzen und per API anzubinden. Es muss im Übrigen nicht immer Generative KI sein. Im Bereich der Optical Character Recognition (OCR) ist neben Generativer auch Diskriminative KI interessant – ein Ansatz, der nichts erschafft, sondern seine Stärken in der Regression und Differenzierung verschiedener Klassen hat. Diese Modelle können also keinen Content erzeugen, sondern sind vielmehr darauf spezialisiert, bestehende Datensätze zu beschreiben und in der Folge auszuwerten und zu interpretieren. Beide Ansätze kommen für OCR in Frage und haben jeweils ihre Vor- und Nachteile.

Als dritter Ansatz zur KI-Integration sollte die Entwicklung eigener Modelle genannt werden. Dies wird in der Tat viel diskutiert, denn Unternehmen versprechen sich davon maximale Kontrolle und Datenhoheit. Das mag sicher zutreffen, doch gibt es offenkundig große Herausforderungen bei solchen Projekten. Unternehmen benötigen zunächst enorme Ressourcen. Zum einen finanzieller Art, um entsprechende Experten zu gewinnen. Zum anderen benötigen sie eine kritische Masse relevanter Daten, anhand derer ihr proprietäres Modell trainiert werden kann. Liegen diese Daten in unstrukturierter Form in einem Data Lake, kommt zusätzliche Komplexität hinzu, da zunächst Exploration notwendig ist. Um auf Data Lakes mit KI zu arbeiten, werden sehr große Ressourcen benötigt. Es besteht zwar die Möglichkeit, diese Workflows an Hyperscaler outzusourcen, doch drohen wiederum Compliance-Probleme.

Jetzt Newsletter abonnieren

Täglich die wichtigsten Infos zu Data-Storage und -Management

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung. Die Einwilligungserklärung bezieht sich u. a. auf die Zusendung von redaktionellen Newslettern per E-Mail und auf den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern (z. B. LinkedIn, Google, Meta).

Aufklappen für Details zu Ihrer Einwilligung

Gerade im DMS-Bereich hat es viele Vorteile, mit speziellen Integrationspartnern für einzelne Aufgaben zu kooperieren, die ihre fertigen KI-Lösungen in den Tool-Stack einbringen. Teilweise arbeiten Unternehmen bereits seit Jahren und Jahrzehnten mit entsprechenden Plattformanbietern zusammen. Diese haben auch spezifische Daten aus unterschiedlichen Quellen zur Verfügung, mit denen sie KI-Modelle trainieren können. Ein mittelständisches Unternehmen hingegen könnte nur auf allgemeine Modelle zurückgreifen und diese mit eigenen Daten nachtrainieren.

Außerdem haben diese Anbieter den Vorteil, dass ihre Daten in der Regel bereits in gewisser Weise aufbereitet sind. Es liegen strukturierte Informationen zu unstrukturierten Dokumenten vor, und fast jedes Dokument wurde bereits einmal klassifiziert und mit Metadaten versehen. Dies erleichtert das Training von KI-Modellen erheblich.

KI in der Masse wird zur Herausforderung

Eine Herausforderung, die man bei immer mehr KI-Integrationen nicht übersehen darf, ist der immense Bedarf an Rechenleistung hinter den Modellen. Das fortwährende Datenwachstum treibt Rechenzentren ohnehin schon an ihre Kapazitätsgrenzen und einige Städte erlassen bereits Ansiedlungsbeschränkungen. Durch den steigenden KI-Einsatz könnte sich diese Problematik nochmals verschärfen. Immer mehr Rechenleistung bedeutet auch immer mehr Energiebedarf. Somit könnte KI perspektivisch zu einer umweltpolitischen Herausforderung werden.

Gerade im Dokumentenmanagement, wo wir durch Digitalisierung und Papiereinsparung zu einer nachhaltigeren Betriebsführung beitragen, sollten wir achtsam sein, durch unkoordinierten und massenhaften KI-Einsatz keine negative Umweltbilanz zu erwirtschaften. Wir sollten die Technologie gezielt dort nutzen, wo sie wirklich benötigt wird. Nicht jedes Problem, das mit KI gelöst werden kann, muss damit gelöst werden. Oft reichen konventionelle Prozesse dafür vollkommen aus. Das sollten wir auf der technischen Ebene bei der Produktentwicklung auch so berücksichtigen. Wie oben beschrieben, ist die Einbindung einzelner Bausteine zum Beispiel ein guter Ansatz. Zudem wäre zu überlegen, ob es in bestimmten Bereichen sinnvoll wäre, Anfragen zu cachen, um nicht dieselben Fragen mehrfach durch ein LLM laufen zulassen.

Auf der anderen Seite sollten auch Nutzer dafür sensibilisiert werden, was eine KI-Abfrage wirklich kostet – sowohl monetär als auch energetisch. Sensibilisierung ist ein gutes Stichwort, wenn es um das Thema Datenschutz geht. Anwendern sollte klar sein, dass je nach Delivery-Modell nicht vollständig geklärt ist, was mit Daten passiert, die in externen KI-Modellen verarbeitet werden. Mitarbeitern sollte also stets bewusst sein, welche Daten sie in welches Modell eingeben können. Sollen sensible Daten mit KI verarbeitet werden, gelten hohe rechtliche und Compliance-Anforderungen für die jeweiligen Anbieter. Anwender sollten sich auch immer die Frage stellen, ob für die jeweilige Aufgabe wirklich KI gebraucht wird, oder ob konventionelle Tools ausreichen.

Im DMS-Umfeld haben wir zudem die Möglichkeiten, bestimmte Dokumentenklassen oder einzelne Textfelder für die Verarbeitung durch künstliche Intelligenz zu sperren und somit die Anwender technisch zu unterstützen, um entsprechend der Legal- und Compliance-Anforderungen des Unternehmens zu handeln. Beispielsweise könnte so dafür gesorgt werden, dass in HR-Prozessen generell keine KI zulässig ist. Alternativ könnte die Technologie für unkritische Prozesse zugelassen, aber für Dokumente mit kritischen personenbezogenen Daten wie Lebensläufe gesperrt werden.

Ausblick

Die Entwicklungen von KI im DMS-Umfeld sind aktuell in vollem Gange, und wir werden in den nächsten Monaten und Jahren noch viele weitere spannende Innovationen erleben. KI-Tools werden sich von Befehlsempfängern immer mehr zu selbstständigeren Assistenten entwickeln und immer mehr Teile des Büroalltags automatisieren. Anwendungen werden dabei auch von sich selbst lernen. Wenn beispielsweise ein Controller jeden Morgen bestimmte Rechnungen des Vortags sucht, um diese zu bewerten, kann die Anwendung dies selbstständig lernen und dem Anwender die aufbereiteten Informationen liefern. Die eindeutigen Fälle wurden hierbei bereits durch die KI erledigt, und der Controller muss sich lediglich um die Vorgänge kümmern, die sein Fachwissen beanspruchen.

Nico Bäumer, CTO der d.velop AG.(Bild:  d.velop)
Nico Bäumer, CTO der d.velop AG.
(Bild: d.velop)

Je weiter sich die Technologie mit unserem Alltag verzahnt, desto stärker werden allerdings auch ethische Fragen aufkommen. Unsere Gesellschaft benötigt einen Grundkonsens, wo der Einsatz von KI gut und zweckmäßig ist und an welchen Stellen darauf verzichtet werden sollte. Überall KI zu integrieren, wo es möglich ist, ist der falsche Weg. Auch hier gilt, wir sollten KI da einsetzen, wo es sinnvoll ist. Aktuell handelt es sich noch um eine sehr ressourcenintensive Technologie. Trotzdem neigen wir dazu, alles mit ihr erschlagen zu wollen, und vergessen dabei zu hinterfragen, ob es der langfristig beste Weg ist oder ob es heute schon nachhaltig bessere Möglichkeiten gibt.

* Der Autor: Nico Bäumer, CTO der d.velop AG

Aktuelles eBook

Storage für HPC & KI

eBook Storage für HPC & KI
eBook „Storage für HPC & KI“
(Bild: Storage-Insider)

Speichersysteme für das HPC und für die verschiedenen Disziplinen der KI sind hohen Anforderungen ausgesetzt. Denn sie müssen enorme Datenmengen in kürzester Zeit bereitstellen oder sammeln. Wie können diese Herausforderungen gemeistert werden?

Die Themen im Überblick:

  • Aktuelle Trends in der Künstlichen Intelligenz
  • High-Performance Computing – Explosion der Innovationen
  • Künstliche Intelligenz – nahezu Echtzeit-Datenverarbeitung

(ID:49987152)