Suchen

DATA Storage & Analytics Technology Conference 2020 – Interview mit Dr. Axel Koester „KI kann nicht inkrementell lernen“

Redakteur: Dr. Jürgen Ehneß

Die DATA Storage & Analytics Technology Conference 2020, die aufgrund der Coronakrise am 30. April und 12. Mai dieses Jahres online sowie am 17. September in Würzburg und am 24. September in Neuss stattfindet, verspricht spannende „Keynotes“. IT-BUSINESS hat als Mitveranstalter und Medienpartner die Keynote-Speaker im Vorfeld zu ihren Vorträgen befragt. Hier im Interview: Dr. Axel Koester von IBM, der seine Keynote zum Thema „Storage für KI – KI für Storage: ein Blick in die Zukunft“ hält.

Firmen zum Thema

Die DATA STORAGE & ANALYTICS Technology Conference 2020 findet am 30. April und am 12. Mai 2020 online statt und kommt im September nach Würzburg und Neuss.
Die DATA STORAGE & ANALYTICS Technology Conference 2020 findet am 30. April und am 12. Mai 2020 online statt und kommt im September nach Würzburg und Neuss.
(Bild: Vogel IT-Medien)

ITB: Inwiefern verändert künstliche Intelligenz die Storage-Welt?

Dr. Axel Koester, IBM: Als die Idee von ADAS, dem autonomen Fahren, erstmals aufkam, hat man Kamerabilder und Abstandssensordaten aufgezeichnet. Wahrscheinlich hat man gedacht, mit ein paar Gigabyte würde man schon auskommen (seinerzeit ein kleiner Speicherserver). Heute zeichnen Forschungsfahrzeuge diese paar Gigabyte schon innerhalb weniger Kilometer auf, aber perfekt und vollautonom sind sie immer noch nicht. Das Streben nach Perfektion wird uns in allen Anwendungen der KI heimsuchen, denn Perfektion benötigt Erfahrung, sprich: mehr Beispiele, aus denen man lernt.

Dummerweise kann künstliche Intelligenz anders als natürliche Intelligenz nicht inkrementell lernen, zumindest noch nicht gut. Also muss der gesamte Erfahrungsschatz zur stetigen Wiederverwendung und Perfektionierung gehortet werden. Das ist für den Storage-Markt erstmal eine gute Nachricht, macht die Sache aber nicht einfacher.

Zeitgleich leisten wir uns immer unterschiedlichere IT-Installationen, deren Software-Komponenten aus einem riesigen (Open-Source-)Vorrat fast beliebig zusammengestellt werden können, wobei jede Variante auch einen Liebhaber findet. Und für alle diese Komponenten braucht die Welt Spezialisten, die für andere Bereiche nicht mehr zur Verfügung stehen. Der Vorrat ist nicht unendlich, höchstens lässt sich die Reisegeschwindigkeit der Experten noch etwas steigern. Wir kommen um KI als autonomes Steuerungswerkzeug unserer IT-Installationen und unserer Daten nicht herum.

Die wahre Chance ist allerdings etwas, das man vor 20 Jahren für unmöglich hielt: das Erlernen von Expertenwissen für Sonderfälle und Ausnahmen. Also nicht die Automation der Standardfälle, sondern die Fähigkeit, unerwartete Abweichungen vom Soll zu erkennen und direkt richtig zu reagieren.

Der Gesprächspartner: Dr. Axel Koester, Executive IT Specialist, IBM Deutschland.
Der Gesprächspartner: Dr. Axel Koester, Executive IT Specialist, IBM Deutschland.
(Bild: IBM Deutschland)

Diese Sonderfälle kennen viele ITler aus Erfahrung: Etwas läuft nicht wie vorgesehen, aber der Fehler ist nicht trivial, die Logs und Performancekurven sind widersprüchlich. Schließlich erscheint der empfohlene Experte vom Fach und sagt beim Blick auf die Aufzeichnungen: „Sieht man doch.“ – und das Problem ist eingegrenzt. Wenn der Experte aber einem Programmierer erklären soll, was er da sieht, scheitert er. Er kann es zwar in Worte fassen, aber irgendwie nicht in Zahlen.

Genau das ist sicherlich die Königsdisziplin der (neuronalen) KI: Sie geht Probleme an, die nur schwer bezifferbar sind, obwohl „man die Lösung doch sieht“. Ob auf einem Foto alle Gesichter nett dreinschauen, kann man schnell erkennen, aber nicht schnell erklären, geschweige denn codieren. Heute haben alle modernen Kameras und Mobilgeräte winzige KI-Einheiten an Bord, die zuvor anhand abertausender Beispiele trainiert wurden, wahre „Porträtexperten“.

Auf IT-Belange übersetzt, müsste dieser Porträtexperte auch damit umgehen können, dass der Kamerachip unerwartet Streifen produziert oder dass das Deckglas bricht oder dass ein Stecker wackelig sitzt, oder, oder, oder … die vielen Fehlerquellen heutiger Hardware und Firmware. KI-Werkzeuge bietet eben die Chance, Expertenwissen für viele Sonderfälle auf kleinem Raum zu bündeln und immer vorzuhalten, so dass die echten Experten sich nur noch um die Härtefälle kümmern müssten – denn mehr schaffen sie gar nicht.

Cloud-Storage, Flash-Speicher, klassische Festplatten-Arrays – welche Speichertechnologie empfehlen Sie Unternehmen? Und welche Rolle spielt das Speichermanagement?

Dr. Koester: Cloud-Storage ist ja keine Technologie, eher ein Betriebsmodell, das sich fallweise mehr oder weniger eignet. Am ehesten dürfen wohl verteilte Objektspeicher das Label „Cloud“ für sich beanspruchen, unabhängig vom Betriebsmodell. Viele Hoster, Streamer- und Backup-Provider betreiben eigene verteilte Objektspeicher, deren Inhalte tagtäglich über unsere Apps, Browser und Fernseher flimmern.

Verteilte Objektspeicher stellen die mit Abstand preiswerteste Art der Speicherung für Live-Daten ohne Anspruch auf schnelle Antwortzeit dar, das typische „warme Archiv“. Effizient werden verteilte Objektspeicher durch ihre Redundanz in Form von RAID-über-Standorte. Das verringert den technischen Footprint, vernichtet aber aufgrund der Standortdistanzen alle Hoffnungen auf kurze Antwortzeiten – eben ein klassischer Webservice über https, nur eben zur Speicherung.

Vor allem hier (und auf Dauer wohl auch nur noch hier) bleiben Festplatten konkurrenzfähig, denn das Schreiben und Lesen großer Objekte entspricht dem Naturell von Shingled-recording-Festplatten, also alles größer zwölf Terabyte pro Drive. SR-Platten nähern sich den Eigenschaften von Bändern, die immerhin für Kaltarchive den TB-Preis von Platten nochmal um Faktor zehn unterbieten.

Allen Betreibern schneller Speichersysteme für Performance-hungrige Anwendungen empfehle ich heute, sich mit NVMe zu befassen und mit in Hardware komprimierten Flash-Modulen anzufreunden. Stand Februar 2020 sind 88 TB Flash-Kapazität im 2,5-Zoll-NVMe-SSD-Format mit Festplatten kaum noch wettzumachen. Rechnerisch ist damit die 2-PB-Grenze in einem 2U-Server geknackt. Das mag für Compute-Server oder Server-SANs noch nicht sinnvoll sein, aber reine Speicherserver profitieren von der erneuten Verdichtung deutlich.

Zudem hält Storage-Class-Memory SCM verstärkt Einzug in die Speichergeräte, um trotz der hohen Verdichtung immer bessere Antwortzeiten zu liefern (smartes Auto-Tiering vorausgesetzt). Ersetzt man nur einen Bruchteil der SSD-Kapazität durch SCM, zaubert intelligentes Auto-Tiering daraus einen Wow-Effekt für alle. Das ist allerdings nichts, das man noch manuell verwalten kann: Von Handarbeit sollte man sich hier verabschieden.

Wie kann künstliche Intelligenz dabei helfen, die wachsenden Datenmengen zu bändigen? Oder bleibt das eine Utopie?

Dr. Koester: Zunächst einmal wird der Datenhunger der KI die wachsende Datenmenge nicht eindämmen, im Gegenteil. Bändigen schon eher, dazu später mehr.

Derzeit ist die Bereitstellung von Trainingsdaten noch ein exotisches Problem der Abteilungen, die sich damit befassen, aber die KI wird immer mehr Bereiche berühren, die das noch nicht vermuteten. Und dies mit individuellen Lösungen, deren Modell nicht von der Stange kommt. Die anwenderseitige Vereinfachung des Lernprozesses ist der Schlüssel. Ein alltägliches Beispiel dazu: Seit Android 9 ist die dynamische Helligkeitsregelung der Handydisplays ein selbstlernender Algorithmus, der die Vorlieben des Benutzers kennenlernt: Am Anfang korrigiert man ständig und flucht fast schon, weil die Helligkeit nie zur Situation passt. Aber täglich wird das weniger, und nach ein paar Monaten hat man vergessen, dass es überhaupt eine individuelle Helligkeitsregelung gibt – es stimmt einfach immer (aber bei jedem Nutzer anders).

Ähnlich einfach kann das Training von Video-KI werden, „Power AI Vision“ ist da wegweisend. Auch die KI-Modellsuche und Datenkuration werden zunehmend einfacher durch „AutoML“-Frameworks wie H2O.ai, Ludwig, MLBox, TPOT oder Auto Keras. Je besser diese werden, desto mehr Beispieldaten werden wir zukünftig auf Verdacht aufheben, weil man ja etwas daraus machen könnte. Die Datenflut wird also definitiv nicht weniger.

Sehr wohl aber profitiert die technische Datenverwaltung, allen voran Lifecycle Management und Auto-Tiering, von den KI-Methoden. Spielt man so etwas für das Square-Kilometer-Array-Projekt, den zukünftig größten Radioteleskopverbund, durch, so kommt man bei rund einem Exabyte Rohdaten pro Tag schnell auf die Notwendigkeit der Vollautomatisierung. Wir erforschen dort gerade KI-Methoden, die Transferdaten von sinnvollen Verwahrungsdaten trennen können und bei der Verwahrung wiederum zwischen durchsuchbaren Daten und Instant-Kaltarchivdaten unterscheiden lernen. Am Ende können wir „nur“ ein Petabyte pro Tag speichern, und noch viel weniger durchsuchbar machen.

Hochinteressant ist die automatische fallweise Erkennung von Instant-Kaltdaten, weil sie prinzipiell auf jede IT-Installation anwendbar ist: Information, die als Instant-Kaltdaten kategorisiert wird, fließt direkt ins Kaltarchiv (meist Bänder) zur allfälligen Wiederverwendung in zukünftigen AutoML-Tools oder in möglichen juristischen Verfahren. Das Verfahren gewinnt jede Menge Bandbreite zurück, die heute zwischen regulärer Speicherung und semiautomatisiertem Aufräumen von unstrukturierten Daten verloren geht. Diese sollte man besser für durchsuchbare Daten verwenden, die anschließend auch wirklich abgerufen werden (das ist die Lernschleife).

Weitere spannende Anwendungen liegen in der Flottenüberwachung von Systemen, in der Früherkennung von Chargenproblemen oder im autonomen Ermitteln von Kompatibilitätsmatrizen. Das sind aber meist klassische Machine-Learning-Methoden (ML) und vielerorts keine Utopie mehr.

Zum Abschluss eine etwas provokante Frage: Warum sollten sich die Konferenzbesucher Ihren Vortrag anhören?

Dr. Koester: Ich plane, zu all den genannten Themen Bilder zu zeigen, dafür reicht hier der Platz nicht. Im Ernst –wir müssen uns erstmal der exponentiellen Zunahme unseres Spezialistenmangels bewusst werden, um die Notwendigkeit von KI-Technologien einzusehen. Auch den Zusammenhang will ich zeigen.

Vielen Dank für das Gespräch, Herr Dr. Koester!

+++ Veranstaltungsupdate +++

Da für uns die Gesundheit und Sicherheit unserer Teilnehmer, Partner und Teammitglieder an erster Stelle steht, haben wir uns entschieden, die bisherigen Präsenztermine der DATA Storage & Analytics Conference 2020 in den Herbst zu verschieben. Diese Entscheidung ist uns nicht leichtgefallen, jedoch ist es angesichts der aktuellen Situation rund um COVID-19 die einzig richtige. Zusätzlich bieten wir Ihnen die Teilnahme an unserer Virtual Conference an, welche am 30. April und am 12. Mai stattfinden wird.

IT-BUSINESS ist Mitveranstalter und Medienpartner der DATA Storage & Analytics Technology Conference 2020. Wenn Sie Dr. Koester und viele weitere interessante Speaker live erleben wollen, melden Sie sich hier zur virtuellen Konferenz oder zu den Konferenzterminen im September an:

► Zur Agenda & Anmeldung – DATA STORAGE & ANALYTICS Technology Conference 2020

 

 

(ID:46337374)