ProAct: Agenten mit präziser Vorhersage meistern komplexe Interaktionen
Das neue ProAct‑Framework löst ein langjähriges Problem von Large‑Language‑Model‑Agenten: die Schwierigkeit, in interaktiven Umgebungen langfristig zu planen. Durch die Kombination von gezieltem Training und einer effizienten Wertschätzung können Agenten künftig Fehler, die bei der Simulation zukünftiger Zustände entstehen, deutlich reduzieren.
Im ersten Schritt nutzt ProAct Grounded LookAhead Distillation (GLAD). Dabei werden Agenten mit Trajektorien aus einer umgebungsspezifischen Suche feinjustiert. Die komplexen Suchbäume werden dabei in kompakte, kausale Argumentationsketten komprimiert, sodass der Agent die Logik des Vorausdenkens erlernt, ohne bei jeder Inferenz auf aufwändige Suchalgorithmen zurückgreifen zu müssen.
Der zweite Schritt ist der Monte‑Carlo Critic (MC‑Critic), ein plug‑and‑play‑Wertschätzer, der Policy‑Gradient‑Algorithmen wie PPO und GRPO verbessert. Durch leichte Rollouts in der Umgebung werden die Wertschätzungen kalibriert, was ein niedrigvarianziertes Signal liefert und stabile Optimierungen ermöglicht, ohne auf teure modellbasierte Wertapproximationen angewiesen zu sein.
In Experimenten mit stochastischen Spielen wie 2048 und deterministischen Rätseln wie Sokoban zeigt ProAct eine signifikante Steigerung der Planungsgenauigkeit. Ein 4‑Billionen‑Parameter‑Modell, das mit ProAct trainiert wurde, übertrifft sämtliche Open‑Source‑Baselines und steht in der Nähe von geschlossenen, hochentwickelten Modellen. Zudem demonstriert es eine robuste Generalisierung auf bisher unbekannte Umgebungen. Die zugehörigen Codes und Modelle sind unter https://github.com/GreatX3/ProAct verfügbar.