Forschung
Mean Flow Policy Optimization: Schnellere RL-Modelle ohne Kompromisse
In der Welt des Online-Reinforcement-Learnings (RL) haben Diffusionsmodelle kürzlich die Messlatte für expressive Policy-Repräsentationen a…
arXiv – cs.LG