Optimales Token‑Baseline reduziert Varianz bei Langzeit‑LLM‑RL
Reinforcement Learning (RL) für große Sprachmodelle (LLMs) leidet häufig unter Trainingskollapsen bei Aufgaben mit langen Zeithorizonten, weil die Gradientenvarianz explodiert. Um dem entgegenzuwirken, setzen Forscher ü…
- Reinforcement Learning (RL) für große Sprachmodelle (LLMs) leidet häufig unter Trainingskollapsen bei Aufgaben mit langen Zeithorizonten, weil die Gradientenvarianz expl…
- Um dem entgegenzuwirken, setzen Forscher üblicherweise ein Baseline‑Modell für die Vorteil‑Berechnung ein.
- Traditionelle Wertmodelle sind jedoch schwer zu optimieren, und herkömmliche gruppenbasierte Baselines berücksichtigen die Heterogenität von Token‑Sequenzen nicht.
Reinforcement Learning (RL) für große Sprachmodelle (LLMs) leidet häufig unter Trainingskollapsen bei Aufgaben mit langen Zeithorizonten, weil die Gradientenvarianz explodiert. Um dem entgegenzuwirken, setzen Forscher üblicherweise ein Baseline‑Modell für die Vorteil‑Berechnung ein. Traditionelle Wertmodelle sind jedoch schwer zu optimieren, und herkömmliche gruppenbasierte Baselines berücksichtigen die Heterogenität von Token‑Sequenzen nicht.
Obwohl die klassische Theorie eines optimalen Baselines die globale Varianz reduzieren kann, ignoriert sie die Token‑Heterogenität und erfordert aufwändige gradientenbasierte Berechnungen. In der vorliegenden Arbeit wird das Optimal Token Baseline (OTB) aus ersten Prinzipien abgeleitet. Dabei wird gezeigt, dass Gradientenupdates mit dem Kehrwert ihres kumulativen Gradientennorms gewichtet werden sollten.
Um die Effizienz zu gewährleisten, wird ein Logit‑Gradient‑Proxy vorgeschlagen, der die Gradientennorm nur anhand der Vorwärtspass‑Wahrscheinlichkeiten approximiert. Das Ergebnis ist ein stabileres Training, das die Leistung von großen Gruppengrößen (N = 32) bereits mit nur N = 4 erreicht und den Token‑Verbrauch in Ein‑Turn‑ und tool‑integrierten Denkaufgaben um mehr als 65 % senkt.
Welche Linse du auf diese Meldung legen solltest
Dieses Thema ist relevant, weil es zeigt, wie sich KI-Produkte, Modelle oder Rahmenbedingungen in der Praxis verschieben.
Achte zuerst darauf, was sich fuer Nutzer, Builder oder Unternehmen konkret veraendert und ob daraus ein nachhaltiger Trend entsteht.
Kontext ohne Glossar-Suche
Wenn du nach dieser Meldung weiterlernen willst
Von dieser Meldung direkt in Hub, Analyse und Nachbarthemen
Achte zuerst darauf, was sich fuer Nutzer, Builder oder Unternehmen konkret veraendert und ob daraus ein nachhaltiger Trend entsteht.
Dieses Thema taucht in denselben KI-Entwicklungen regelmaessig mit auf und hilft beim groesseren Bild.
Dieses Thema taucht in denselben KI-Entwicklungen regelmaessig mit auf und hilft beim groesseren Bild.
Dieses Thema taucht in denselben KI-Entwicklungen regelmaessig mit auf und hilft beim groesseren Bild.