„KI kann nicht inkrementell lernen“

DATA Storage & Analytics Technology Conference 2020 – Interview mit Dr. Axel Koester „KI kann nicht inkrementell lernen“

17.08.2020Redakteur: Dr. Jürgen Ehneß

Die DATA Storage & Analytics Technology Conference 2020, die am 17. September in Würzburg und am 24. September in Neuss stattfindet, verspricht spannende Keynotes. Storage-Insider hat als Mitveranstalter und Medienpartner die Keynote-Speaker im Vorfeld um eine Preview gebeten. Hier im Interview: Dr. Axel Koester von IBM, der seine Keynote zum Thema „Storage für KI – KI für Storage: ein Blick in die Zukunft“ hält.

Anbieter zum Thema

Vogel IT-Akademie

Vogel IT-Medien GmbH

fsas-afc-horizontal-2-positive-rgb-nov24 (Fsas)

Fujitsu Technology Solutions GmbH

Impossible Cloud GmbH

Die DATA STORAGE & ANALYTICS Technology Conference 2020 kommt am 17. September nach Würzburg und am 24. September nach Neuss. Selbstverständlich hat die Vogel IT-Akademie zusammen mit den Veranstaltungslocations ein Hygienekonzept erarbeitet und die notwendigen Sicherheitsvorkehrungen erhöht.
(Bild: © stone36 - stock.adobe.com)

Storage-Insider: Inwiefern verändert künstliche Intelligenz die Storage-Welt?

Dr. Axel Koester, IBM: Als die Idee von ADAS, dem autonomen Fahren, erstmals aufkam, hat man Kamerabilder und Abstandssensordaten aufgezeichnet. Wahrscheinlich hat man gedacht, mit ein paar Gigabyte würde man schon auskommen (seinerzeit ein kleiner Speicherserver). Heute zeichnen Forschungsfahrzeuge diese paar Gigabyte schon innerhalb weniger Kilometer auf, aber perfekt und vollautonom sind sie immer noch nicht. Das Streben nach Perfektion wird uns in allen Anwendungen der KI heimsuchen, denn Perfektion benötigt Erfahrung, sprich: mehr Beispiele, aus denen man lernt.

Dummerweise kann künstliche Intelligenz anders als natürliche Intelligenz nicht inkrementell lernen, zumindest noch nicht gut. Also muss der gesamte Erfahrungsschatz zur stetigen Wiederverwendung und Perfektionierung gehortet werden. Das ist für den Storage-Markt erstmal eine gute Nachricht, macht die Sache aber nicht einfacher.

Zeitgleich leisten wir uns immer unterschiedlichere IT-Installationen, deren Software-Komponenten aus einem riesigen (Open-Source-)Vorrat fast beliebig zusammengestellt werden können, wobei jede Variante auch einen Liebhaber findet. Und für alle diese Komponenten braucht die Welt Spezialisten, die für andere Bereiche nicht mehr zur Verfügung stehen. Der Vorrat ist nicht unendlich, höchstens lässt sich die Reisegeschwindigkeit der Experten noch etwas steigern. Wir kommen um KI als autonomes Steuerungswerkzeug unserer IT-Installationen und unserer Daten nicht herum.

Die wahre Chance ist allerdings etwas, das man vor 20 Jahren für unmöglich hielt: das Erlernen von Expertenwissen für Sonderfälle und Ausnahmen. Also nicht die Automation der Standardfälle, sondern die Fähigkeit, unerwartete Abweichungen vom Soll zu erkennen und direkt richtig zu reagieren.

Der Gesprächspartner: Dr. Axel Koester, Executive IT Specialist, IBM Deutschland. — (Bild: IBM Deutschland)

Diese Sonderfälle kennen viele ITler aus Erfahrung: Etwas läuft nicht wie vorgesehen, aber der Fehler ist nicht trivial, die Logs und Performancekurven sind widersprüchlich. Schließlich erscheint der empfohlene Experte vom Fach und sagt beim Blick auf die Aufzeichnungen: „Sieht man doch.“ – und das Problem ist eingegrenzt. Wenn der Experte aber einem Programmierer erklären soll, was er da sieht, scheitert er. Er kann es zwar in Worte fassen, aber irgendwie nicht in Zahlen.

Genau das ist sicherlich die Königsdisziplin der (neuronalen) KI: Sie geht Probleme an, die nur schwer bezifferbar sind, obwohl „man die Lösung doch sieht“. Ob auf einem Foto alle Gesichter nett dreinschauen, kann man schnell erkennen, aber nicht schnell erklären, geschweige denn codieren. Heute haben alle modernen Kameras und Mobilgeräte winzige KI-Einheiten an Bord, die zuvor anhand abertausender Beispiele trainiert wurden, wahre „Porträtexperten“.

Auf IT-Belange übersetzt, müsste dieser Porträtexperte auch damit umgehen können, dass der Kamerachip unerwartet Streifen produziert oder dass das Deckglas bricht oder dass ein Stecker wackelig sitzt, oder, oder, oder … die vielen Fehlerquellen heutiger Hardware und Firmware. KI-Werkzeuge bietet eben die Chance, Expertenwissen für viele Sonderfälle auf kleinem Raum zu bündeln und immer vorzuhalten, so dass die echten Experten sich nur noch um die Härtefälle kümmern müssten – denn mehr schaffen sie gar nicht.

Cloud-Storage, Flash-Speicher, klassische Festplatten-Arrays – welche Speichertechnologie empfehlen Sie Unternehmen? Und welche Rolle spielt das Speichermanagement?

Dr. Koester: Cloud-Storage ist ja keine Technologie, eher ein Betriebsmodell, das sich fallweise mehr oder weniger eignet. Am ehesten dürfen wohl verteilte Objektspeicher das Label „Cloud“ für sich beanspruchen, unabhängig vom Betriebsmodell. Viele Hoster, Streamer- und Backup-Provider betreiben eigene verteilte Objektspeicher, deren Inhalte tagtäglich über unsere Apps, Browser und Fernseher flimmern.

Verteilte Objektspeicher stellen die mit Abstand preiswerteste Art der Speicherung für Live-Daten ohne Anspruch auf schnelle Antwortzeit dar, das typische „warme Archiv“. Effizient werden verteilte Objektspeicher durch ihre Redundanz in Form von RAID-über-Standorte. Das verringert den technischen Footprint, vernichtet aber aufgrund der Standortdistanzen alle Hoffnungen auf kurze Antwortzeiten – eben ein klassischer Webservice über https, nur eben zur Speicherung.

Vor allem hier (und auf Dauer wohl auch nur noch hier) bleiben Festplatten konkurrenzfähig, denn das Schreiben und Lesen großer Objekte entspricht dem Naturell von Shingled-recording-Festplatten, also alles größer zwölf Terabyte pro Drive. SR-Platten nähern sich den Eigenschaften von Bändern, die immerhin für Kaltarchive den TB-Preis von Platten nochmal um Faktor zehn unterbieten.

Allen Betreibern schneller Speichersysteme für Performance-hungrige Anwendungen empfehle ich heute, sich mit NVMe zu befassen und mit in Hardware komprimierten Flash-Modulen anzufreunden. Stand Februar 2020 sind 88 TB Flash-Kapazität im 2,5-Zoll-NVMe-SSD-Format mit Festplatten kaum noch wettzumachen. Rechnerisch ist damit die 2-PB-Grenze in einem 2U-Server geknackt. Das mag für Compute-Server oder Server-SANs noch nicht sinnvoll sein, aber reine Speicherserver profitieren von der erneuten Verdichtung deutlich.

Zudem hält Storage-Class-Memory SCM verstärkt Einzug in die Speichergeräte, um trotz der hohen Verdichtung immer bessere Antwortzeiten zu liefern (smartes Auto-Tiering vorausgesetzt). Ersetzt man nur einen Bruchteil der SSD-Kapazität durch SCM, zaubert intelligentes Auto-Tiering daraus einen Wow-Effekt für alle. Das ist allerdings nichts, das man noch manuell verwalten kann: Von Handarbeit sollte man sich hier verabschieden.

Wie kann künstliche Intelligenz dabei helfen, die wachsenden Datenmengen zu bändigen? Oder bleibt das eine Utopie?

Dr. Koester: Zunächst einmal wird der Datenhunger der KI die wachsende Datenmenge nicht eindämmen, im Gegenteil. Bändigen schon eher, dazu später mehr.

Derzeit ist die Bereitstellung von Trainingsdaten noch ein exotisches Problem der Abteilungen, die sich damit befassen, aber die KI wird immer mehr Bereiche berühren, die das noch nicht vermuteten. Und dies mit individuellen Lösungen, deren Modell nicht von der Stange kommt. Die anwenderseitige Vereinfachung des Lernprozesses ist der Schlüssel. Ein alltägliches Beispiel dazu: Seit Android 9 ist die dynamische Helligkeitsregelung der Handydisplays ein selbstlernender Algorithmus, der die Vorlieben des Benutzers kennenlernt: Am Anfang korrigiert man ständig und flucht fast schon, weil die Helligkeit nie zur Situation passt. Aber täglich wird das weniger, und nach ein paar Monaten hat man vergessen, dass es überhaupt eine individuelle Helligkeitsregelung gibt – es stimmt einfach immer (aber bei jedem Nutzer anders).

Ähnlich einfach kann das Training von Video-KI werden, „Power AI Vision“ ist da wegweisend. Auch die KI-Modellsuche und Datenkuration werden zunehmend einfacher durch „AutoML“-Frameworks wie H2O.ai, Ludwig, MLBox, TPOT oder Auto Keras. Je besser diese werden, desto mehr Beispieldaten werden wir zukünftig auf Verdacht aufheben, weil man ja etwas daraus machen könnte. Die Datenflut wird also definitiv nicht weniger.

Sehr wohl aber profitiert die technische Datenverwaltung, allen voran Lifecycle Management und Auto-Tiering, von den KI-Methoden. Spielt man so etwas für das Square-Kilometer-Array-Projekt, den zukünftig größten Radioteleskopverbund, durch, so kommt man bei rund einem Exabyte Rohdaten pro Tag schnell auf die Notwendigkeit der Vollautomatisierung. Wir erforschen dort gerade KI-Methoden, die Transferdaten von sinnvollen Verwahrungsdaten trennen können und bei der Verwahrung wiederum zwischen durchsuchbaren Daten und Instant-Kaltarchivdaten unterscheiden lernen. Am Ende können wir „nur“ ein Petabyte pro Tag speichern, und noch viel weniger durchsuchbar machen.

Hochinteressant ist die automatische fallweise Erkennung von Instant-Kaltdaten, weil sie prinzipiell auf jede IT-Installation anwendbar ist: Information, die als Instant-Kaltdaten kategorisiert wird, fließt direkt ins Kaltarchiv (meist Bänder) zur allfälligen Wiederverwendung in zukünftigen AutoML-Tools oder in möglichen juristischen Verfahren. Das Verfahren gewinnt jede Menge Bandbreite zurück, die heute zwischen regulärer Speicherung und semiautomatisiertem Aufräumen von unstrukturierten Daten verloren geht. Diese sollte man besser für durchsuchbare Daten verwenden, die anschließend auch wirklich abgerufen werden (das ist die Lernschleife).

Weitere spannende Anwendungen liegen in der Flottenüberwachung von Systemen, in der Früherkennung von Chargenproblemen oder im autonomen Ermitteln von Kompatibilitätsmatrizen. Das sind aber meist klassische Machine-Learning-Methoden (ML) und vielerorts keine Utopie mehr.

Zum Abschluss eine etwas provokante Frage: Warum sollten sich die Konferenzbesucher Ihren Vortrag anhören?

Dr. Koester: Ich plane, zu all den genannten Themen Bilder zu zeigen, dafür reicht hier der Platz nicht. Im Ernst – wir müssen uns erst mal der exponentiellen Zunahme unseres Spezialistenmangels bewusst werden, um die Notwendigkeit von KI-Technologien einzusehen. Auch den Zusammenhang will ich zeigen.

Vielen Dank für das Gespräch, Herr Dr. Koester!

BigData-Insider ist Mitveranstalter und Medienpartner der DATA Storage & Analytics Technology Conference 2020. Wenn Sie Dr. Axel Koester und viele weitere interessante Speaker live erleben wollen, melden Sie sich hier mit dem VIP-Code „CTS239-BDi“ an! Die Fachkonferenz findet unter Berücksichtigung eines detailliert ausgearbeiteten Hygienekonzepts der Vogel IT-Akademie statt.

► Zur Agenda & Anmeldung – DATA Storage & Analytics Conference 2020

+++ Ihre Sicherheit liegt uns am Herzen +++

Selbstverständlich hat die Gesundheit der Veranstaltungsteilnehmer, Aussteller und aller Mitarbeiter höchste Priorität. Aus diesem Grund hat die Vogel IT-Akademie die notwendigen Sicherheitsvorkehrungen zusammen mit den Veranstaltungslocations erhöht und ein Hygienekonzept ausgearbeitet.

(ID:46752773)