Forschung arXiv – cs.LG

Optimales Token‑Baseline reduziert Varianz bei Langzeit‑LLM‑RL

Reinforcement Learning (RL) für große Sprachmodelle (LLMs) leidet häufig unter Trainingskollapsen bei Aufgaben mit langen Zeithorizonten, weil die Gradientenvarianz explodiert. Um dem entgegenzuwirken, setzen Forscher ü…

≈1 Min. Lesezeit Originalquelle
Kernaussagen
Das nimmst du aus dem Beitrag mit
  • Reinforcement Learning (RL) für große Sprachmodelle (LLMs) leidet häufig unter Trainingskollapsen bei Aufgaben mit langen Zeithorizonten, weil die Gradientenvarianz expl…
  • Um dem entgegenzuwirken, setzen Forscher üblicherweise ein Baseline‑Modell für die Vorteil‑Berechnung ein.
  • Traditionelle Wertmodelle sind jedoch schwer zu optimieren, und herkömmliche gruppenbasierte Baselines berücksichtigen die Heterogenität von Token‑Sequenzen nicht.

Reinforcement Learning (RL) für große Sprachmodelle (LLMs) leidet häufig unter Trainingskollapsen bei Aufgaben mit langen Zeithorizonten, weil die Gradientenvarianz explodiert. Um dem entgegenzuwirken, setzen Forscher üblicherweise ein Baseline‑Modell für die Vorteil‑Berechnung ein. Traditionelle Wertmodelle sind jedoch schwer zu optimieren, und herkömmliche gruppenbasierte Baselines berücksichtigen die Heterogenität von Token‑Sequenzen nicht.

Obwohl die klassische Theorie eines optimalen Baselines die globale Varianz reduzieren kann, ignoriert sie die Token‑Heterogenität und erfordert aufwändige gradientenbasierte Berechnungen. In der vorliegenden Arbeit wird das Optimal Token Baseline (OTB) aus ersten Prinzipien abgeleitet. Dabei wird gezeigt, dass Gradientenupdates mit dem Kehrwert ihres kumulativen Gradienten­norms gewichtet werden sollten.

Um die Effizienz zu gewährleisten, wird ein Logit‑Gradient‑Proxy vorgeschlagen, der die Gradienten­norm nur anhand der Vorwärts­pass‑Wahrscheinlichkeiten approximiert. Das Ergebnis ist ein stabileres Training, das die Leistung von großen Gruppengrößen (N = 32) bereits mit nur N = 4 erreicht und den Token‑Verbrauch in Ein‑Turn‑ und tool‑integrierten Denkaufgaben um mehr als 65 % senkt.

Einordnen in 60 Sekunden

Welche Linse du auf diese Meldung legen solltest

Dieses Thema ist relevant, weil es zeigt, wie sich KI-Produkte, Modelle oder Rahmenbedingungen in der Praxis verschieben.

Achte zuerst darauf, was sich fuer Nutzer, Builder oder Unternehmen konkret veraendert und ob daraus ein nachhaltiger Trend entsteht.

Was veraendert sich praktisch?
Ist das eher Signal, Produkt oder nur kurzfristiger Hype?
Begriffe zum Einordnen

Kontext ohne Glossar-Suche

Reinforcement Learning
Dieses Thema ist relevant, weil es zeigt, wie sich KI-Produkte, Modelle oder Rahmenbedingungen in der Praxis verschieben.
große Sprachmodelle
Dieses Thema ist relevant, weil es zeigt, wie sich KI-Produkte, Modelle oder Rahmenbedingungen in der Praxis verschieben.
Baseline
Dieses Thema ist relevant, weil es zeigt, wie sich KI-Produkte, Modelle oder Rahmenbedingungen in der Praxis verschieben.
arXiv – cs.LG
Diese Quelle setzt den Ausgangspunkt fuer die Meldung. Pruefe immer, ob sie eher Forschung, Produktmarketing oder Praxisperspektive liefert.
Naechste Schritte

Aehnliche Entwicklungen zum Weiterlesen