Optimales Token‑Baseline reduziert Varianz bei Langzeit‑LLM‑RL

arXiv – cs.LG Original ≈1 Min. Lesezeit
Anzeige

Reinforcement Learning (RL) für große Sprachmodelle (LLMs) leidet häufig unter Trainingskollapsen bei Aufgaben mit langen Zeithorizonten, weil die Gradientenvarianz explodiert. Um dem entgegenzuwirken, setzen Forscher üblicherweise ein Baseline‑Modell für die Vorteil‑Berechnung ein. Traditionelle Wertmodelle sind jedoch schwer zu optimieren, und herkömmliche gruppenbasierte Baselines berücksichtigen die Heterogenität von Token‑Sequenzen nicht.

Obwohl die klassische Theorie eines optimalen Baselines die globale Varianz reduzieren kann, ignoriert sie die Token‑Heterogenität und erfordert aufwändige gradientenbasierte Berechnungen. In der vorliegenden Arbeit wird das Optimal Token Baseline (OTB) aus ersten Prinzipien abgeleitet. Dabei wird gezeigt, dass Gradientenupdates mit dem Kehrwert ihres kumulativen Gradienten­norms gewichtet werden sollten.

Um die Effizienz zu gewährleisten, wird ein Logit‑Gradient‑Proxy vorgeschlagen, der die Gradienten­norm nur anhand der Vorwärts­pass‑Wahrscheinlichkeiten approximiert. Das Ergebnis ist ein stabileres Training, das die Leistung von großen Gruppengrößen (N = 32) bereits mit nur N = 4 erreicht und den Token‑Verbrauch in Ein‑Turn‑ und tool‑integrierten Denkaufgaben um mehr als 65 % senkt.

Ähnliche Artikel