Suchen

Deep Learning Ist Künstliche Intelligenz dümmer als gedacht?

| Autor / Redakteur: Robert di Marcoberardino / Rainer Graefen

Glaubt man Hollywood oder den Prognosen aus dem Silicon Valley, dann sind Artifical-Intelligence-Systeme (AI) in greifbarer Nähe. Die Ergebnisse der Winograd Schema Challenge, einem erweiterten Turing-Test für künstliche Intelligenzen, zeichnet allerdings ein anderes Bild.

Firma zum Thema

Selbstlernende Systeme wie IBMs Watson können viele Dinge sehr gut. Gesunder Menschenverstand zählt allerdings nicht dazu.
Selbstlernende Systeme wie IBMs Watson können viele Dinge sehr gut. Gesunder Menschenverstand zählt allerdings nicht dazu.
(Bild: IBM)

Die Challenge arbeitet mit mehrdeutigen Fragestellungen, die Menschen relativ leicht beantworten können, für Chatbots wegen des fehlenden Kontext allerdings problematisch sind.

Terry Winograd, der Namensgeber des Wettbewerbs, formulierte eine Frage folgendermaßen: „Der Stadtrat verweigerte den Demonstranten die Erlaubnis, weil Gewaltausbrüche befürchtet werden“. Die Multiple-Choice-Antworten lauten. „Wer fürchtet die Gewalt? a) der Stadtrat oder b) die Demonstranten“.

Besser als geraten ist nicht gut genug

Die meisten Programme, die am Wettbewerb teilnahmen, lagen bei der Beantwortung der Fragen nur marginal über dem richtigen Prozentsatz für willkürliche Antworten (45 Prozent). Nur zwei Teilnehmer kamen auf immerhin 48 Prozent.

Dabei handelt es sich um die Programme von Quan Liu, einem AI-Forscher aus China und von Nicos Isaak von der Offenen Universität von Zypern. Gewonnen hat die Challenge niemand, denn für den Hauptpreis von 25.000 US-Dollar hätten die Programme in mindestens 90 Prozent der Fälle richtig liegen müssen.

Das Web ist voll mit kuriosen Antwortbeispielen von bereits verfügbaren Assistenten wie Apples Siri oder Microsofts Cortana, die solche Ergebnisse scheinbar bestätigen. Auch der Google-Übersetzer ist nicht selten Gegenstand von Spott.

Dabei übersieht man allerdings leicht, vor welch gewaltiger Aufgabe die Forscher bei künstlichen Intelligenzen stehen. Die Winograd Challenge wurde auch deshalb gestartet, weil einige Chat-Bots den Turing-Test praktisch schon überstehen können - wenn auch nicht mit wirklich seriösen Methoden.

Künstliche Intelligenz kann Wissen nur simulieren

Gary Marcus, ein Berater des Wettbewerbs und selbst AI-Forscher, erklärt die Problematik gegenüber Technology Review so: "Die Programme schneiden nicht besser ab, weil für die richtigen Antworten gesunder Menschenverstand notwendig ist" – der ist für Computersysteme traditionell schwer zu simulieren.

AI-Programme überprüfen Texte meist mit statistischen Methoden. Menschen greifen dagegen auf ein großes Maß an gespeichertem Wissen zurück. Das Anlegen solcher Wissensdatenbanken ist aber sehr aufwändig und zeitintensiv.

Marcus wunderte sich auch über das Fehlen der großen IT-Firmen wie Apple, Google, Facebook, Microsoft oder IBM. Kein großes Unternehmen hat an der Challenge teilgenommen. Zwar könnten die an AI-Bots arbeiten, die den Test mit 100 Prozent bestehen – die AI-Fachwelt zweifelt daran allerdings.

Auch die Deep-Learning-Systeme, die Google etwa schon bei der Bildersuche oder Text-Übersetzungen einsetzt, funktionieren zwar oft wie gewünscht, aber längst nicht immer. Die hier eingesetzten neuronalen Netzwerke müssen vor dem Gebrauch ebenfalls viel lernen.

Deep Learning Challenge der MIT testet soziale Interaktion

Deep Learning war allerdings auch Gegenstand eines Tests von MIT-Mitarbeitern, der sogar erstaunlich gute Ergebnisse produzierte. Dort wurde ein Algorithmus über 600 Stunden mit TV-Sendungen auf YouTube gefüttert und sollte anschließend erkennen, wie bestimmte Szenen weiterlaufen.

Zu den Serien zählten "The Office", "Scrubs" und "The Big Bang Theory". Ab bestimmten Punkten wurden die Videos gestoppt und die AI sollte erkennen, ob die Szene mit einer Umarmung, einem Handschlag, einem Kuss oder einem High-Five weitergeht.

Menschen, die am Test teilnahmen, kamen auf eine richtige Rate von 71 Prozent. Der Algorithmus lag in 43 Prozent der Fällen richtig. Bei vier möglichen Antworten kein schlechter Wert und deutlich über dem Wert von 25 Prozent bei einer geratenen Antwort.

Solche Algorithmen sind nicht neu, allerdings arbeiteten sie bislang ausschließlich auf Pixelebene und waren weniger erfolgreich. Die Programme kontrollieren lediglich die Bewegungen der Pixel zwischen den einzelnen Videobildern und schließen daraus etwa, ob eine Person läuft oder ein Flugzeug abhebt.

Das MIT-Programm geht darüber hinaus und lernt per Deep Learning, welche Hinweise für die soziale Interaktion wichtig sind und welche nicht. Hat es einmal zuverlässig gelernt, wie eine Umarmung aussieht, kann es die in Zukunft deutlich leichter wiedererkennen.

Eine mögliche Anwendung wären Überwachungskameras, die ohne Mensch am Monitor erkennen, ob eine Person gestürzt ist und automatisch den Notruf wählen. Bis es soweit ist, müsste die Erkennung allerdings nahe der 100 Prozent Grenze arbeiten.

(ID:44185614)