Jackpot: Budgeted Rejection Sampling stabilisiert RL für große Sprachmodelle
Reinforcement‑Learning‑Ansätze für große Sprachmodelle (LLMs) sind bislang sehr kostenintensiv, weil die Rollouts selbst teuer sind. Durch die Trennung von Rollout‑Generierung und Policy‑Optimierung könnte die Effizienz…