Optimales Token‑Baseline reduziert Varianz bei Langzeit‑LLM‑RL
Reinforcement Learning (RL) für große Sprachmodelle (LLMs) leidet häufig unter Trainingskollapsen bei Aufgaben mit langen Zeithorizonten, weil die Gradientenvarianz explodiert. Um dem entgegenzuwirken, setzen Forscher üblicherweise ein Baseline‑Modell für die Vorteil‑Berechnung ein. Traditionelle Wertmodelle sind jedoch schwer zu optimieren, und herkömmliche gruppenbasierte Baselines berücksichtigen die Heterogenität von Token‑Sequenzen nicht.
Obwohl die klassische Theorie eines optimalen Baselines die globale Varianz reduzieren kann, ignoriert sie die Token‑Heterogenität und erfordert aufwändige gradientenbasierte Berechnungen. In der vorliegenden Arbeit wird das Optimal Token Baseline (OTB) aus ersten Prinzipien abgeleitet. Dabei wird gezeigt, dass Gradientenupdates mit dem Kehrwert ihres kumulativen Gradientennorms gewichtet werden sollten.
Um die Effizienz zu gewährleisten, wird ein Logit‑Gradient‑Proxy vorgeschlagen, der die Gradientennorm nur anhand der Vorwärtspass‑Wahrscheinlichkeiten approximiert. Das Ergebnis ist ein stabileres Training, das die Leistung von großen Gruppengrößen (N = 32) bereits mit nur N = 4 erreicht und den Token‑Verbrauch in Ein‑Turn‑ und tool‑integrierten Denkaufgaben um mehr als 65 % senkt.