DEPO: Mit Schwierigkeitsbewertung die Kosten für Rollouts halbieren
Ein neues arXiv-Papier präsentiert DEPO, ein innovatives Verfahren zur Optimierung von Large Reasoning Models (LRMs). Durch die Einführung eines Online‑Schwierigkeitsestimators werden Trainingsbeispiele vor dem Rollout‑Schritt selektiv gefiltert, sodass Rechenressourcen gezielt auf die vielversprechendsten Fälle konzentriert werden.
Die Methode adressiert ein bekanntes Problem bei Group Relative Policy Optimization (GRPO): bei zu einfachen oder zu komplexen Aufgaben schwächt sich das Gradienten‑Signal ab, was die Konvergenz gefährdet. DEPO verhindert diese Signal‑Verluste, indem es nur jene Samples auswählt, die einen hohen Lernpotenzial besitzen, und damit die Rauschanfälligkeit reduziert.
Experimentelle Ergebnisse zeigen, dass DEPO die Rollout‑Kosten um bis zu 50 % senken kann, ohne die Modellleistung zu beeinträchtigen. Damit wird die Bereitstellung leistungsfähiger Reasoning‑Modelle nicht nur effizienter, sondern auch nachhaltiger. Der Code und die Daten werden nach Annahme des Papiers veröffentlicht.