Robuste RL-Agenten: Neue Technik verhindert Reward-Hacking bei Proxy-Belohnungen
In der Welt des Reinforcement Learning (RL) bleibt die Gestaltung robuster Agenten trotz unvollständiger Belohnungsinformationen eine zentrale Herausforderung. Agenten werden häufig mit Proxy-Belohnungen trainiert, die…