DreamPRM-Code: Neues Modell steigert LLM-Codierung mit Schritt-für-Schritt-Ansatz

arXiv – cs.LG Original ≈1 Min. Lesezeit
Anzeige

Process Reward Models (PRMs) haben sich als unverzichtbares Werkzeug zur Optimierung von Large Language Models (LLMs) etabliert, insbesondere bei der Testzeit-Skalierung. In der Programmierung stoßen sie jedoch an Grenzen, weil Code selten in sinnvolle Schritte zerlegt wird und Monte-Carlo-generierte Teillabels stark verrauscht sind.

Mit DreamPRM-Code wird dieser Engpass überwunden: Das Modell betrachtet Funktionen als eigenständige Denkschritte und nutzt eine Chain-of-Function-Strategie, um modulare Codegenerierung zu erzwingen. Dadurch kann das PRM ähnlich wie bei mathematischen Problemlösungen trainiert und angewendet werden.

Um die Rauschproblematik bei Labels zu beheben, führt DreamPRM-Code einen meta‑lernenden Korrekturmechanismus ein. Dieser nutzt saubere Endlösungstests als Referenz und optimiert über eine bi‑level‑Optimierung die Zwischenschritte, sodass die Labels konsistenter werden.

In praktischen Tests erzielt DreamPRM-Code einen Durchbruch: Auf dem LiveCodeBench Benchmark erreicht es einen Pass@1‑Wert von 80,9 % – ein neuer Bestwert, der sogar das OpenAI o4‑mini-Modell übertrifft. Diese Ergebnisse zeigen, dass ein schrittorientierter Ansatz in Kombination mit gezielter Label‑Korrektur die Leistungsfähigkeit von LLMs im Codierungsbereich deutlich steigern kann.

Ähnliche Artikel