SPPO: Neue Methode für effiziente Langzeit-Logik in Sprachmodellen
Proximal Policy Optimization (PPO) ist ein zentrales Werkzeug, um große Sprachmodelle (LLMs) in Aufgaben des logischen Denkens mit überprüfbaren Belohnungen auszurichten. Bei herkömmlichem token‑basiertem PPO treten jed…