Stabilisierung von Reinforcement Learning für Diffusions-Sprachmodelle
Forscher haben ein neues Verfahren vorgestellt, das die Stabilität von Reinforcement Learning in Diffusions-Sprachmodellen deutlich verbessert. Das bestehende Group Relative Policy Optimization (GRPO) funktioniert hervo…