BiTAgent: Aufgabenorientierter Rahmen für bidirektionale LLM-Weltmodell-Kopplung

arXiv – cs.AI Original ≈1 Min. Lesezeit
Anzeige

BiTAgent ist ein neu entwickeltes Framework, das multimodale große Sprachmodelle (MLLMs) und Weltmodelle (WMs) miteinander verbindet, um generalistische, eingebettete Agenten zu schaffen. Das System löst zwei zentrale Probleme: die präzise Kopplung von semantischem Intent aus den MLLMs mit dynamischen Zustandsdarstellungen im latenten Raum des WMs und die anpassungsfähige, auf Aufgaben ausgerichtete Lernfähigkeit über verschiedene Umgebungen hinweg.

Durch einen bidirektionalen Informationsfluss arbeitet BiTAgent in zwei Richtungen. Im Vorwärtsweg werden semantische Repräsentationen der MLLMs in den latenten Raum des WMs eingespeist, um eine semantisch geführte Vorstellung der Umgebung zu ermöglichen. Im Rückwärtsweg liefert das WM Feedback, das die semantische Ebene der MLLMs mittels dichten, textbasierten Belohnungen verfeinert. Dieser wechselseitige Austausch sorgt für eine engere Abstimmung zwischen Sprache und dynamischer Modellierung.

Das Framework besteht aus drei synergistischen Komponenten: Task-Aware Dynamic Joint Learning, Task-Aware Behavior Learning und MLLM-WM Joint Optimization. Diese Module harmonisieren die semantische Logik der Sprachmodelle mit der dynamischen Vorhersagefähigkeit der Weltmodelle und ermöglichen so ein kohärentes, adaptives Verhalten.

Umfangreiche Experimente in Multi-Task- und Cross-Environment-Setups zeigen, dass BiTAgent eine höhere Stabilität und bessere Generalisierung als aktuelle Spitzenlösungen erzielt. Die Agenten behalten ihre Leistungsfähigkeit bei wechselnden Aufgaben und Umgebungen und demonstrieren damit ein hohes Maß an Flexibilität.

BiTAgent markiert einen bedeutenden Fortschritt auf dem Weg zu offenen, eingebetteten Intelligenzsystemen, die sowohl semantische als auch dynamische Aspekte nahtlos integrieren können.

Ähnliche Artikel