Vermeidung von Lernstillstand PPO Skalierung auf 1 Million Parallelumgebungen
Plateaus – Phasen, in denen ein Agent bei PPO nicht mehr Fortschritte macht – sind ein häufiges Problem in der on‑policy‑Reinforcement‑Learning‑Forschung. Die neue Studie zeigt, dass diese Stillstände nicht primär durch…