Robuste RL-Agenten: Neue Technik verhindert Reward-Hacking bei Proxy-Belohnungen
In der Welt des Reinforcement Learning (RL) bleibt die Gestaltung robuster Agenten trotz unvollständiger Belohnungsinformationen eine zentrale Herausforderung. Agenten werden häufig mit Proxy-Belohnungen trainiert, die…
- In der Welt des Reinforcement Learning (RL) bleibt die Gestaltung robuster Agenten trotz unvollständiger Belohnungsinformationen eine zentrale Herausforderung.
- Agenten werden häufig mit Proxy-Belohnungen trainiert, die nur annähernd das eigentliche Ziel widerspiegeln.
- Dadurch entstehen Möglichkeiten für Reward‑Hacking, bei dem Agenten hohe Proxy‑Erträge erzielen, indem sie unerwünschte oder ausnutzende Verhaltensweisen zeigen.
In der Welt des Reinforcement Learning (RL) bleibt die Gestaltung robuster Agenten trotz unvollständiger Belohnungsinformationen eine zentrale Herausforderung. Agenten werden häufig mit Proxy-Belohnungen trainiert, die nur annähernd das eigentliche Ziel widerspiegeln. Dadurch entstehen Möglichkeiten für Reward‑Hacking, bei dem Agenten hohe Proxy‑Erträge erzielen, indem sie unerwünschte oder ausnutzende Verhaltensweisen zeigen.
Die neue Methode formuliert Reward‑Hacking als ein robustes Policy‑Optimierungsproblem über alle r‑korrilierten Proxy‑Belohnungen. Durch eine tractable Max‑Min‑Formulierung maximiert der Agent seine Leistung unter dem worst‑case Proxy, der mit der Korrelationseinschränkung übereinstimmt. Für lineare Belohnungen, die aus bekannten Merkmalen bestehen, lässt sich die Technik weiter anpassen, um priorisiertes Wissen einzubeziehen und gleichzeitig interpretierbare worst‑case Belohnungen zu liefern.
Experimentelle Ergebnisse in mehreren Umgebungen zeigen, dass die Algorithmen die bestehenden Ansätze wie ORPO in worst‑case Renditen übertreffen und gleichzeitig eine höhere Robustheit sowie Stabilität bei unterschiedlichen Proxy‑zu‑True‑Reward‑Korrelationen bieten. Die Kombination aus Robustheit und Transparenz macht diese Technik besonders wertvoll, wenn die Belohnungsdefinition von Natur aus unsicher ist.
Der zugehörige Code ist frei verfügbar unter https://github.com/ZixuanLiu4869/reward_hacking.
Welche Linse du auf diese Meldung legen solltest
Dieses Thema ist relevant, weil es zeigt, wie sich KI-Produkte, Modelle oder Rahmenbedingungen in der Praxis verschieben.
Achte zuerst darauf, was sich fuer Nutzer, Builder oder Unternehmen konkret veraendert und ob daraus ein nachhaltiger Trend entsteht.
Kontext ohne Glossar-Suche
Wenn du nach dieser Meldung weiterlernen willst
Von dieser Meldung direkt in Hub, Analyse und Nachbarthemen
Achte zuerst darauf, was sich fuer Nutzer, Builder oder Unternehmen konkret veraendert und ob daraus ein nachhaltiger Trend entsteht.
Dieses Thema taucht in denselben KI-Entwicklungen regelmaessig mit auf und hilft beim groesseren Bild.
Dieses Thema taucht in denselben KI-Entwicklungen regelmaessig mit auf und hilft beim groesseren Bild.
Dieses Thema taucht in denselben KI-Entwicklungen regelmaessig mit auf und hilft beim groesseren Bild.