ReST‑RL steigert Code‑Reasoning von LLMs durch optimiertes Self‑Training

Eine neue Methode namens ReST‑RL verspricht, die Fähigkeit großer Sprachmodelle (LLMs) zum logischen Durcharbeiten von Programmcode deutlich zu verbessern. Dabei adressiert sie zwei zentrale Schwächen bisheriger Ansätze: die geringe Belohnungsvarianz des Reinforcement‑Learning‑Verfahrens GRPO und die Schwierigkeiten bei der Datensammlung sowie der Verifikation von Prozess‑Reward‑Modellen (PRMs).

ReST‑RL kombiniert einen optimierten GRPO‑Algorithmus mit einem speziell entwickelten Test‑Time‑Decoding‑Ansatz, der von einem Value‑Model (VM) unterstützt wird. Im ersten Schritt filtert ReST‑GRPO gezielt hochwertige Trainingsdaten heraus und setzt sie zusammen, wodurch die Belohnungsvarianz erhöht und die Effizienz des Lernprozesses gesteigert wird.

Im Anschluss wird die VM‑MCTS‑Methode eingesetzt. Durch Monte‑Carlo‑Tree‑Search werden präzise Wertziele ohne zusätzliche Annotationen generiert, die als Grundlage für das Training des VM dienen. Beim Decodieren liefert das VM dann genaue Prozesssignale und Verifikationswerte, die das LLM bei der Lösung von Code‑Aufgaben unterstützen und die Genauigkeit erhöhen.

Umfangreiche Experimente auf Programmieraufgaben zeigen, dass ReST‑RL die Leistung signifikant übertrifft, wenn es mit klassischen GRPO‑ und ReST‑DPO‑Baselines verglichen wird. Die Methode demonstriert damit einen klaren Fortschritt in der Optimierung von LLMs für komplexe Code‑Reasoning‑Aufgaben.

Ähnliche Artikel