SPARK: Schrittweises, Referenzfreies RL mit Prozessbelohnungsmodellen

arXiv – cs.LG Original ≈2 Min. Lesezeit
Anzeige

Das neue Framework SPARK eröffnet einen wegweisenden Ansatz für Reinforcement‑Learning ohne die Notwendigkeit von Schritt‑level‑Annotations oder Referenzdaten. Durch die Kombination von generativen Modellen, selbstkonsistenter Verifikation und synthetischem Training schafft SPARK ein robustes Belohnungssystem, das die Grenzen herkömmlicher Methoden sprengt.

SPARK besteht aus drei aufeinanderfolgenden Phasen. In der ersten Phase erzeugt ein Generator vielfältige Lösungswege, die anschließend von einem Verifier bewertet werden. Dieser Verifier nutzt parallele Skalierung (Selbstkonsistenz) und sequenzielle Skalierung (Meta‑Kritik), um die Qualität der einzelnen Schritte zu beurteilen. Die daraus gewonnenen Verifikationsausgaben dienen als synthetische Trainingsdaten für die nächste Phase.

In der zweiten Phase werden die Verifikationsdaten verwendet, um generative Prozessbelohnungsmodelle (PRMs) zu feintunen. Diese PRMs liefern anschließend Schritt‑level‑Belohnungen, die das Lernverhalten steuern. Auf dem Benchmark ProcessBench erzielte das Modell einen F1‑Score von 67,5 – deutlich höher als die 66,4, die bei Referenz‑gesteuertem Training erreicht wurden, und deutlich besser als die 61,9 von GPT‑4o.

Die finale Phase setzt das generative PRM mit Chain‑of‑Thought‑Verifikation (PRM‑CoT) als Belohnungsfunktion in RL‑Experimenten ein. Durch die Einführung von Formatbeschränkungen wird Reward‑Hacking verhindert. Auf sechs mathematischen Reasoning‑Benchmarks erreichte Qwen2.5‑Math‑7B eine durchschnittliche Genauigkeit von 47,4 %, was einen klaren Vorsprung gegenüber dem ground‑truth‑basierten RLVR‑Ansatz (43,9 %) darstellt.

SPARK demonstriert, dass referenzfreies RL nicht nur machbar, sondern sogar leistungsfähiger als traditionelle, ground‑truth‑basierte Methoden sein kann. Diese Entwicklung eröffnet neue Möglichkeiten für Anwendungsbereiche, in denen verifizierbare Antworten fehlen oder schwer zugänglich sind.

Ähnliche Artikel