Reward-Zero: Sprachbasierte Implicit-Reward-Mechanismen für RL
Forscher haben ein neues Tool namens Reward-Zero vorgestellt, das natürliche Sprachbeschreibungen von Aufgaben in kontinuierliche Fortschrittssignale für Reinforcement‑Learning‑Agenten umwandelt. Reward-Zero nutzt Sprac…