Agent World Model: 1.000 synthetische Umgebungen für robuste Agenten-Training

arXiv – cs.AI Original ≈1 Min. Lesezeit
Anzeige

Mit dem neuen Agent World Model (AWM) eröffnet Snowflake Labs eine völlig neue Dimension für das Training von Agenten im Bereich Reinforcement Learning. Durch einen vollständig synthetischen Generierungsprozess werden 1.000 Umgebungen geschaffen, die alltägliche Szenarien abbilden und durchschnittlich 35 Tools pro Umgebung enthalten. Diese code‑gesteuerten Welten sind datenbankgestützt, was zu zuverlässigeren und konsistenteren Zustandsübergängen führt als bei LLM‑simulierten Szenarien.

AWM ermöglicht es Agenten, effizienter zu interagieren, da die Umgebungen vollständig ausführbar sind und die zugrunde liegenden Datenbankzustände jederzeit zugänglich sind. Dadurch lassen sich präzise Belohnungsfunktionen definieren und die Trainingsdaten werden nicht durch das Sammeln von Trajektorien aus realen Umgebungen belastet.

In umfangreichen Experimenten mit drei Benchmark‑Sätzen zeigte sich, dass Agenten, die ausschließlich in diesen synthetischen Umgebungen trainiert wurden, eine starke Generalisierung auf außerhalb der Trainingsumgebung liegende Aufgaben erzielen. Der komplette Code ist frei verfügbar unter https://github.com/Snowflake-Labs/agent-world-model.

Ähnliche Artikel