Foundation-Modelle kämpfen mit Modalitätsungleichgewicht bei multimodaler Logik
Foundation‑Modelle (FMs) sind heute in vielen realen Anwendungen – von Computer‑Assistenten bis hin zu autonomen Systemen – im Einsatz. Damit sie jedoch zuverlässig funktionieren, müssen sie Informationen aus unterschiedlichen Modalitäten (z. B. Text, Bild, Sprache) gleichzeitig verarbeiten und miteinander in Beziehung setzen. In einer neuen Studie wurde untersucht, wie gut FMs in solchen „cross‑modal“ Situationen – also bei widersprüchlichen Hinweisen aus verschiedenen Modalitäten – zurechtkommen.
Die Experimente zeigten, dass FMs Konflikte in rein unimodalen Szenarien – also wenn nur eine Modalität vorliegt – zu 90 % korrekt erkennen. Sobald jedoch die Beweise auf mehrere Modalitäten verteilt sind, sinkt die Erkennungsrate dramatisch auf nur 3 %. Das gleiche Phänomen trat auch bei cross‑lingualen Tests auf, bei denen mehrere Sprachen gleichzeitig berücksichtigt wurden.
Die Ursache liegt in einem gravierenden Ungleichgewicht der cross‑modalen Aufmerksamkeitsmechanismen. Die Modelle gewichten bestimmte Modalitäten überproportional stark, wodurch wichtige Hinweise aus anderen Quellen vernachlässigt werden. Ein bloßes Aufskalieren der Datensätze reicht nicht aus, weil diese oft keine expliziten Beispiele für cross‑modales Denken enthalten.
Die Autoren demonstrieren, dass ein einfaches, skalierbares Verfahren – die explizite Kombination mehrerer Modalitäten innerhalb jeder Trainingsinstanz – das Aufmerksamkeitsungleichgewicht deutlich reduziert. Dadurch verbessert sich die Leistung der Modelle auf mehreren Vision‑Language‑Benchmarks, was die Bedeutung einer gezielten Trainingsgestaltung für multimodale KI unterstreicht.