REAL: Regressionsbewusstes RL optimiert LLMs als automatisierte Richter
In der Welt der großen Sprachmodelle (LLMs) gewinnt die Idee, sie als automatisierte Prüfer einzusetzen, immer mehr an Bedeutung. Dabei bewerten die Modelle die Ausgaben anderer Modelle mit numerischen Punkten – ein Ans…
- In der Welt der großen Sprachmodelle (LLMs) gewinnt die Idee, sie als automatisierte Prüfer einzusetzen, immer mehr an Bedeutung.
- Dabei bewerten die Modelle die Ausgaben anderer Modelle mit numerischen Punkten – ein Ansatz, der als „LLM-as-a-Judge“ bezeichnet wird.
- Traditionelle Reinforcement‑Learning‑Methoden (RL) nutzen jedoch meist binäre Belohnungen, wodurch die wertvolle Ordinalstruktur von Regressionsaufgaben übersehen wird.
In der Welt der großen Sprachmodelle (LLMs) gewinnt die Idee, sie als automatisierte Prüfer einzusetzen, immer mehr an Bedeutung. Dabei bewerten die Modelle die Ausgaben anderer Modelle mit numerischen Punkten – ein Ansatz, der als „LLM-as-a-Judge“ bezeichnet wird. Traditionelle Reinforcement‑Learning‑Methoden (RL) nutzen jedoch meist binäre Belohnungen, wodurch die wertvolle Ordinalstruktur von Regressionsaufgaben übersehen wird. So erkennt ein Modell nicht, dass eine Vorhersage von 4 viel besser ist als eine Vorhersage von 1, wenn die wahre Bewertung 5 beträgt.
Um dieses Problem zu lösen, wurde das neue Framework REAL (Regression‑Aware Reinforcement Learning) entwickelt. REAL optimiert explizit Regressionsbelohnungen und ist zudem nachweislich optimal für Korrelationen. Da die Regressionsziele direkt von der Policy abhängen, sind klassische Policy‑Gradient‑Methoden nicht anwendbar. Stattdessen nutzt REAL einen generalisierten Policy‑Gradient‑Estimator, der die Optimierung in zwei Teile zerlegt: Erstens die Erkundung von Chain‑of‑Thought‑Trajektorien und zweitens die regressionsbewusste Verfeinerung der Endvorhersage.
Umfangreiche Tests mit Modellen von 8 B bis 32 B zeigen, dass REAL sowohl bei Regressions‑SFT‑Baselines als auch bei herkömmlichen RL‑Methoden deutlich bessere Ergebnisse erzielt. Besonders hervorzuheben ist die verbesserte Generalisierung auf Out‑of‑Domain‑Benchmarks. Auf dem Qwen3‑32B‑Modell erzielt REAL beeindruckende Leistungen, die die bisherigen Ansätze deutlich übertreffen.
Welche Linse du auf diese Meldung legen solltest
LLMs sind Sprachmodelle, die Text verstehen, erzeugen und in Produkte eingebettet werden.
Achte zuerst auf Modellqualitaet, Kosten pro Nutzung und darauf, ob echte Produktverbesserungen oder nur Benchmarks kommuniziert werden.
Kontext ohne Glossar-Suche
Wenn du nach dieser Meldung weiterlernen willst
Von dieser Meldung direkt in Hub, Analyse und Nachbarthemen
Achte zuerst auf Modellqualitaet, Kosten pro Nutzung und darauf, ob echte Produktverbesserungen oder nur Benchmarks kommuniziert werden.
Dieses Thema taucht in denselben KI-Entwicklungen regelmaessig mit auf und hilft beim groesseren Bild.
Dieses Thema taucht in denselben KI-Entwicklungen regelmaessig mit auf und hilft beim groesseren Bild.
Dieses Thema taucht in denselben KI-Entwicklungen regelmaessig mit auf und hilft beim groesseren Bild.