VistaWise: Kosten‑effizienter Agent mit multimodaler Wissensgraphen für Minecraft

arXiv – cs.AI Original ≈1 Min. Lesezeit
Anzeige

Große Sprachmodelle haben in den letzten Jahren enorme Fortschritte bei der Entscheidungsfindung in virtuellen Open‑World‑Umgebungen erzielt. Ihr Potenzial bleibt jedoch durch das Fehlen von domänenspezifischem Wissen begrenzt, und das Feintuning auf riesigen Datensätzen ist mit hohen Kosten verbunden.

Vor diesem Hintergrund präsentiert das Forschungsteam VistaWise – ein kostengünstiges Agenten‑Framework, das gezielt domänenspezifisches Wissen aus verschiedenen Modalitäten integriert. Durch das Feintuning eines spezialisierten Objekterkennungsmodells für die visuelle Analyse reduziert VistaWise den Bedarf an Trainingsdaten von Millionen auf nur wenige hundert Stichproben.

Ein zentrales Merkmal von VistaWise ist der Aufbau eines cross‑modalen Wissensgraphen, der visuelle Informationen und textuelle Abhängigkeiten miteinander verknüpft. Dieser Graph ermöglicht eine umfassende und präzise Erfassung der multimodalen Umgebung, was die Entscheidungsfindung des Agenten erheblich verbessert.

Zur Informationsgewinnung nutzt der Agent eine retrieval‑basierte Pooling‑Strategie, die relevante Aufgabeninformationen aus dem Wissensgraphen extrahiert. Zusätzlich verfügt VistaWise über eine Desktop‑Level‑Skill‑Bibliothek, die direkte Steuerung des Minecraft‑Desktop‑Clients über Maus- und Tastatureingaben erlaubt.

Experimentelle Tests zeigen, dass VistaWise in einer Vielzahl von Open‑World‑Aufgaben die bisher beste Leistung erzielt. Die Ergebnisse unterstreichen, dass das Framework nicht nur die Entwicklungskosten drastisch senkt, sondern gleichzeitig die Leistungsfähigkeit des Agenten signifikant steigert.

Ähnliche Artikel