DaGRPO: Verbesserte LLM-Logik durch Gradientenkorrektur und Distinctiveness

arXiv – cs.AI Original ≈1 Min. Lesezeit
Anzeige

Die Weiterentwicklung großer Sprachmodelle hat den Fokus von oberflächlichem Befolgen von Anweisungen hin zu tiefgreifendem, mehrstufigem Denken verlagert. Das bisher führende Verfahren, Group Relative Policy Optimization (GRPO), kann diese Fähigkeiten nach dem Training aktivieren, leidet jedoch unter Instabilität und geringer Stichproben­effizienz. Die Autoren zeigen, dass das Problem auf fehlende Distinctiveness in den On‑Policy‑Rollouts zurückzuführen ist: Bei einfachen Fragen erzeugen homogene Samples destruktive Gradientenkonflikte, während bei schwierigen Fragen die Knappheit positiver Beispiele die Optimierung schwächt.

Um diese Lücken zu schließen, stellen sie Distinctiveness‑aware Group Relative Policy Optimization (DaGRPO) vor. DaGRPO nutzt zwei zentrale Mechanismen: Erstens eine sequentielle Gradientenkorrektur, die mit feingranularen Scoring‑Methoden Paare mit geringer Distinctiveness maskiert und damit Gradientenkonflikte von vornherein eliminiert. Zweitens eine Off‑Policy‑Datenaugmentation, die hochwertige Anchors einführt, um Trainingssignale für anspruchsvolle Aufgaben wiederherzustellen.

Umfangreiche Tests an neun mathematischen Reasoning‑Benchmarks und Out‑of‑Distribution‑Generalisation‑Tests zeigen, dass DaGRPO bestehende SFT‑, GRPO‑ und Hybrid‑Baselines deutlich übertrifft. Insbesondere erzielt es einen durchschnittlichen Genauigkeitsgewinn von +4,7 % auf den Mathematik‑Benchmarks und setzt damit neue Maßstäbe in der LLM‑Reasoning‑Forschung.

Ähnliche Artikel