KI-Forschung

Computer lernen, menschliche Emotionen zu interpretieren

| Autor / Redakteur: Sebastian Gerstl / Tina Billo

Die Forscher des MIT Media Lab haben ein maschinelles Lernmodell entwickelt, das Computern näherbringt, menschliche Emotionen so natürlich wie andere Menschen zu interpretieren.
Die Forscher des MIT Media Lab haben ein maschinelles Lernmodell entwickelt, das Computern näherbringt, menschliche Emotionen so natürlich wie andere Menschen zu interpretieren. (Bild: MIT)

Mit einem von Forschern des MIT Media Lab entwickelten maschinellen Lernmodells sollen Computer lernen, menschliche Emotionen anhand von Mimik "lesen" und verstehen zu können. Durch die Anpassung an andere Personenkreise soll beispielsweise eine bessere Einschätzung von Depression, Demenz oder Autismus möglich werden.

Ein Teilbereich der KI-Forschung ist das sogenannte "affektive Rechnen". Hierbei werden Roboter und Computer entwickelt, um Gesichtsausdrücke zu analysieren, unsere Emotionen zu interpretieren und entsprechend zu reagieren.

Anwendungen sind zum Beispiel die Überwachung der Gesundheit und des Wohlbefindens einer Person, die Messung des Interesses der Schüler an Klassenzimmern, die Unterstützung bei der Diagnose von Anzeichen bestimmter Krankheiten und die Entwicklung hilfreicher Roboterbegleiter.

Tiefergehende Unterschiede erkennen

Damit dies jedoch funktioniert, müssen die Systeme lernen, wie Menschen Emotionen ausdrücken. Dies kann, abhängig von diversen Faktoren, grundverschieden ausfallen. So gibt es etwa allgemeine Unterschiede zwischen Kulturen, Geschlechtern und Altersgruppen. Andere sind noch feiner: Die Tageszeit, wie viel die betreffende Person geschlafen hat, oder die individuelle Vertrautheit mit einem Gesprächspartner führt zu subtilen Variationen in der Art und Weise, wie Gefühle in einem bestimmten Moment ausgedrückt werden.

SEMINARTIPP Mit dem Online-Kurs „Machine Learning – wie lernt die Maschine?“ tauchen Sie tiefer in die Methodik ein. Professor van der Smagt – Leiter Artificial Intelligence bei Volkswagen – erläutert Teilnehmern in zwei Stunden die wichtigsten Konzepte des Machine Learnings konzentriert und verdichtet.
Weitere Informationen

Das menschliche Gehirn fängt diese Abweichungen instinktiv ein. Maschinen beherrschen diese Art des Feingefühle nicht. In den letzten Jahren wurden tiefgehende Lerntechniken entwickelt, um die Feinheiten einzufangen. Allerdings sie sind immer noch nicht so genau und anpassungsfähig, wie sie sein könnten.

Lernmodell für emotionales Feingefühl

Forscher des MIT Media Lab haben nun ein Modell für maschinelles Lernen entwickelt, um die Stimmung beim Training auf tausenden von Gesichtern besser einschätzen zu können. Darüber hinaus kann lässt sich dieses mit ein paar zusätzlichen Trainingsdaten an einen völlig neuen Personenkreis angepasst, bei gleicher Wirksamkeit. Ziel ist die Verbesserung bestehender affektiver Computertechnologien.

Wie die Forscher ausführen, verwenden traditionelle affektive Computermodelle für gewöhnlich ein "one-size-fits-all"-Konzept: Sie trainieren auf einem Satz von Bildern, die verschiedene Gesichtsausdrücke darstellen, optimieren Funktionen - zum Beispiel wie sich eine Lippe beim Lächeln wölbt - und bilden diese allgemeinen Prinzipen auf eine ganze Reihe neuer Bilder ab. Das Problem bei diesem Ansatz ist, dass die Art und Weise, wie eine bestimmte Person ihre Gefühle ausdrückt, sich nicht zwangsweise auch direkt auf andere Personen übertragen lässt.

Die MIT-Forscher kombinierten stattdessen eine Technik, die als "Mix of Experts" (MoE) bezeichnet wird, mit Modellpersonalisierungstechniken, die dazu beitrugen, feinkörnige Gesichtsausdruckdaten von Individuen zu gewinnen. Dies ist das erste Mal, dass diese beiden Techniken für affektives Computing kombiniert wurden, sagt Rudovic.

"Personalisierter Experten-Mix"

In MoEs werden mehrere neuronale Netzwerkmodelle, sogenannte "Experten", ausgebildet, um sich auf eine separate Verarbeitungsaufgabe zu spezialisieren und eine Ausgabe zu erzeugen. Die Forscher haben auch ein "Gate-Netzwerk" integriert, das die Wahrscheinlichkeiten berechnet, welcher Experte die Stimmungen von unsichtbaren Personen am besten erkennt.

Für ihr Modell haben die Forscher die MoEs personalisiert, indem sie jeden Experten mit einer von 18 individuellen Videoaufzeichnungen in der RECOLA-Datenbank, einer öffentlichen Datenbank von Personen, die sich auf einer Video-Chat-Plattform für affektive Computeranwendungen unterhalten, abgleichen. Sie trainierten das Modell an neun Probanden und bewerteten sie an den anderen neun, wobei alle Videos in einzelne Frames zerlegt wurden.

Jeder Experte und das Gatternetz verfolgten die Gesichtsausdrücke jedes Einzelnen mit Hilfe eines Restnetzes ("ResNet"), einem neuronalen Netz, das zur Objektklassifizierung verwendet wird. Dabei hat das Modell jeden Frame nach dem Grad der Wertigkeit (angenehm oder unangenehm) und der Erregung (Aufregung) bewertet - häufig verwendete Metriken, um verschiedene emotionale Zustände zu kodieren. Getrennt beschrifteten sechs menschliche Experten jeden Rahmen für Wertigkeit und Erregung, basierend auf einer Skala von -1 (niedrige Stufen) bis 1 (hohe Stufen), die das Modell auch zum Trainieren verwendete.

Die Forscher führten dann eine weitere Modellpersonalisierung durch, bei der sie die trainierten Modelldaten von einigen Frames der verbleibenden Videos der Testpersonen einspeisten und das Modell dann an allen unsichtbaren Frames dieser Videos testeten. Die Ergebnisse zeigten, dass das Modell mit nur 5 bis 10 Prozent der Daten aus der neuen Population die traditionellen Modelle um ein Vielfaches übertraf - was bedeutet, dass es die Wertigkeit und Erregung von unsichtbaren Bildern viel näher an die Interpretationen menschlicher Experten heranreichte.

Verbesserung des Mensch-Maschinen-Verhältnisses

Ein weiteres Ziel ist es, das Modell so zu trainieren, dass Computer und Roboter automatisch aus kleinen Datenmengen lernen, um auf natürlichere Weise zu erkennen, wie wir uns fühlen und den menschlichen Bedürfnissen besser gerecht zu werden, sagen die Forscher.

Es könnte beispielsweise im Hintergrund eines Computers oder mobilen Geräts laufen, um die videobasierten Gespräche eines Benutzers zu verfolgen und subtile Mimikveränderungen in verschiedenen Kontexten zu lernen. "Man könnte zum Beispiel eine Smartphone-Apps oder Website in die Lage versetzen, zu beurteilen, wie sich die Menschen fühlen, und Wege zu empfehlen, mit Stress oder Schmerzen umzugehen, und andere Dinge, die ihr Leben negativ beeinflussen", sagt Michael Feffer, Bachelor-Student der Elektrotechnik und Informatik und Hauptautor der betreffenden MIT-Studie.

Dies könnte auch bei der Überwachung von Depressionen oder Demenz hilfreich sein, da sich die Mimik der Menschen aufgrund dieser Bedingungen subtil verändert. Ärzte oder Pflegepersonal wären dadurch besser in der Lage, Krankheitsverlauf oder das psychische Wohlbefinden ihrer Patienten einzuschätzen und zu überprüfen. Eine weitere Version dieses Modells wurde verwendet, um Robotern zu helfen, die Stimmungen von Kindern mit Autismus besser zu interpretieren.

Intelligent konstruieren

Kompendium Maschinenkonstruktion

Intelligent konstruieren

Angesichts zunehmender Digitalisierung, Vernetzung von Maschinen und Anlagen oder neuer Software-Tools ändert sich das Aufgabengebiet des Konstrukteurs entscheidend. Grund genug, relevante Artikel für Sie zusammen zu fassen. weiter...

Roddy Cowie, emeritierter Professor für Psychologie an der Queen's University Belfast und affektiver Computerwissenschaftler, sagt, dass die Arbeit des MIT "zeigt, wo wir wirklich sind". "Wir nähern uns Systemen, die von Bildern der Gesichter von Menschen, die auf Skalen von sehr positiv bis sehr negativ und sehr aktiv bis sehr passiv liegen, grob platzieren können", sagt er.

"Es scheint intuitiv, dass die emotionalen Zeichen, die eine Person gibt, nicht die gleichen sind wie die Zeichen, die eine andere gibt, und so macht es viel Sinn, dass die Emotionserkennung besser funktioniert, wenn sie personalisiert ist. Die Methode der Personalisierung spiegelt einen weiteren faszinierenden Punkt wider, dass es effektiver ist, mehrere "Experten" auszubilden und ihre Urteile zusammenzufassen, als einen einzigen Superexperten auszubilden. Beides zusammen ergibt ein befriedigendes Paket."

* Diesen Beitrag haben wir von unserem Partnerportal Elektronik-Praxis übernommen.

Kommentare werden geladen....

Was meinen Sie zu diesem Thema?

Der Kommentar wird durch einen Redakteur geprüft und in Kürze freigeschaltet.

Anonym mitdiskutieren oder einloggen Anmelden

Avatar
Zur Wahrung unserer Interessen speichern wir zusätzlich zu den o.g. Informationen die IP-Adresse. Dies dient ausschließlich dem Zweck, dass Sie als Urheber des Kommentars identifiziert werden können. Rechtliche Grundlage ist die Wahrung berechtigter Interessen gem. Art 6 Abs 1 lit. f) DSGVO.
  1. Avatar
    Avatar
    Bearbeitet von am
    Bearbeitet von am
    1. Avatar
      Avatar
      Bearbeitet von am
      Bearbeitet von am

Kommentare werden geladen....

Kommentar melden

Melden Sie diesen Kommentar, wenn dieser nicht den Richtlinien entspricht.

Kommentar Freigeben

Der untenstehende Text wird an den Kommentator gesendet, falls dieser eine Email-hinterlegt hat.

Freigabe entfernen

Der untenstehende Text wird an den Kommentator gesendet, falls dieser eine Email-hinterlegt hat.

copyright

Dieser Beitrag ist urheberrechtlich geschützt. Sie wollen ihn für Ihre Zwecke verwenden? Infos finden Sie unter www.mycontentfactory.de (ID: 45465184 / Forschung u. Wissenschaft)