Fehlerzählen statt Rubriken: Neue Belohnung für virtuelle Anprobe
In der Welt des Reinforcement Learning haben sich Methoden wie RLVR und Rubrics as Rewards (RaR) als besonders wirkungsvoll erwiesen, wenn klare Korrektheitssignale vorhanden sind. Doch viele reale Aufgaben, etwa die vi…