Forschung
Breiter statt tiefer: Consensus Aggregation steigert Policy-Optimierung
In der neuesten Veröffentlichung auf arXiv wird ein zentrales Problem der Proximal Policy Optimization (PPO) aufgezeigt: Mehrere Epochen vo…
arXiv – cs.LG