Neues Modell adaptiert wie Menschen: Metakognitives Testzeit-Reasoning
Vision‑Language‑Modelle (VLMs) zeigen beeindruckende Wahrnehmungs‑ und Rechenfähigkeiten, doch wenn sie auf neue Aufgaben stoßen, fällt es ihnen oft schwer, sich schnell anzupassen. Menschen dagegen nutzen ein metakognitives System mit Speicher, das kontinuierlich Strategien verfeinert, sobald neue Herausforderungen auftreten.
Um diese Lücke zu schließen, wurde das Metakognitive Testzeit‑Reasoning (MCTR) vorgestellt. MCTR kombiniert zwei spezialisierte Module: ein Meta‑Reasoning‑Modul, das aus Testzeit‑Beobachtungen strukturierte Erinnerungen aufbaut, indem es regelbasierte, umweltbezogene und ergebnisorientierte Beziehungen in natürlicher Sprache festhält; und ein Action‑Reasoning‑Modul, das optimale Aktionen bestimmt, indem es kontextabhängige Wahrnehmung mit strategischem Denken verbindet und dabei dynamisch Wissen aus dem Speicher abruft. Das Action‑Reasoning‑Modul aktualisiert seine Politik kontinuierlich durch metakognitives Testzeit‑Reinforcement‑Learning, sodass es sich an das wachsende Wissensspeicher anpasst.
In einer umfangreichen Evaluation mit 45 Atari‑Spielen – 33 bereits gesehenen und 12 unbekannten – erzielte MCTR bei den unbekannten Spielen 9 von 12 Top‑1‑Ergebnissen, was deutlich über den Leistungen herkömmlicher Baselines liegt. Diese Ergebnisse demonstrieren, dass MCTR eine robuste Testzeit‑Anpassung ermöglicht und damit einen wichtigen Schritt in Richtung menschenähnlicher Lernfähigkeit von VLMs darstellt.