Neues Benchmark für mehrdeutige Emotionserkennung in Sprachmodellen

arXiv – cs.AI Original ≈1 Min. Lesezeit
Anzeige

Emotionserkennung aus menschlicher Sprache ist ein entscheidender Baustein für sozial bewusste KI. Während die meisten bisherigen Ansätze Emotionen als feste Kategorien behandeln, sind reale affektive Zustände häufig mehrdeutig, überlappend und stark kontextabhängig. Diese Komplexität erschwert sowohl die Annotation als auch die automatische Modellierung.

Große Audio‑Language‑Modelle (ALMs) eröffnen neue Möglichkeiten für nuancierte affektive Analyse, ohne dass explizite Emotionslabels nötig sind. Doch ihre Fähigkeit, mehrdeutige Emotionen zu erfassen, wurde bislang kaum untersucht. Gleichzeitig haben sich inference‑time Techniken wie Test‑Time Scaling (TTS) als vielversprechend für die Verbesserung von Generalisierung und Anpassungsfähigkeit in schwierigen NLP‑Aufgaben erwiesen, deren Nutzen für die Affektverarbeitung bleibt jedoch unklar.

In dieser Arbeit wird das erste Benchmark für die Erkennung mehrdeutiger Emotionen in Sprachdaten vorgestellt, das ALMs unter Einsatz von Test‑Time Scaling evaluiert. Die Untersuchung vergleicht systematisch acht führende ALMs und fünf TTS‑Strategien über drei prominente Datensätze zur Sprach‑Emotionserkennung. Durch eine detaillierte Analyse der Wechselwirkung zwischen Modellkapazität, TTS und affektiver Mehrdeutigkeit werden neue Einblicke in die rechnerischen und repräsentativen Herausforderungen der Emotionserkennung gewonnen.

Das Benchmark‑Framework schafft eine solide Basis für die Entwicklung robuster, kontextsensitiver und emotional intelligenter sprachbasierter KI‑Systeme und weist zugleich wichtige zukünftige Forschungsrichtungen auf, um die Diskrepanz zwischen Modellannahmen und der Komplexität realer Emotionen zu überbrücken.

Ähnliche Artikel