Forschung
Robuste RL-Agenten: Neue Technik verhindert Reward-Hacking bei Proxy-Belohnungen
In der Welt des Reinforcement Learning (RL) bleibt die Gestaltung robuster Agenten trotz unvollständiger Belohnungsinformationen eine zentr…
arXiv – cs.LG