Neuer Vision-Agent IMAgent löst Multi-Image-Quiz mit Reinforcement Learning

arXiv – cs.AI Original ≈1 Min. Lesezeit
Anzeige

Ein brandneuer Open-Source-Agent namens IMAgent wurde entwickelt, um die Grenzen herkömmlicher Vision‑Language‑Modelle (VLM) zu sprengen. Während die meisten bestehenden Systeme nur mit einem Bild arbeiten, ist IMAgent speziell für komplexe Aufgaben konzipiert, bei denen mehrere Bilder gleichzeitig analysiert werden müssen.

Die Entwickler nutzen ein Multi‑Agent‑System, um anspruchsvolle, visuell reiche Frage‑Antwort‑Paare zu generieren. Durch manuelle Verifizierung entsteht die MIFG‑QA‑Sammlung mit 10.000 Beispielen, die sowohl zum Training als auch zur Evaluation dient. Damit wird die Fähigkeit des Modells, mehrere Bilder gleichzeitig zu verarbeiten, umfassend getestet.

Ein zentrales Problem bei VLMs ist, dass sie bei tieferen Denkprozessen oft die Bildinformationen vernachlässigen. IMAgent begegnet diesem Problem mit zwei spezialisierten Tools für visuelle Reflexion und Bestätigung. Diese ermöglichen es dem Modell, während der Inferenz gezielt seine Aufmerksamkeit auf die Bildinhalte zu richten und so die Genauigkeit zu erhöhen.

Dank einer cleveren zweistufigen Maskierungsstrategie für Aktions‑Trajektorien erreicht IMAgent stabile Tool‑Verwendung ausschließlich durch Reinforcement‑Learning, ohne teure, überwachte Feinabstimmung. In umfangreichen Tests zeigt der Agent nicht nur starke Leistungen bei bestehenden Einzelbild‑Benchmarks, sondern erzielt auch signifikante Verbesserungen auf dem neuen Multi‑Image‑Datensatz. Die veröffentlichten Codes und Daten werden in Kürze verfügbar sein und bieten der Forschungsgemeinschaft wertvolle Einblicke.

Ähnliche Artikel