KI News: Kurz und klar.

Anmelden

Beyond expected value: geometric mean optimization for long-term policy performance in reinforcement learning

arXiv – cs.LG • 01.09.2025 05:00 • Original

#Reinforcement Learning #Belohnungsoptimierung #Zeitdurchschnittliche Wachstumsrate #Geometrisches Mittel #Multiplikative Belohnungsdynamik #Schiebefenster #Bellman-Operator

Anzeige

Ähnliche Artikel

arXiv – cs.LG • 29.08.2025 05:00

TokenBuncher schützt LLMs vor schädlichem Reinforcement‑Learning‑Fine‑Tuning

arXiv – cs.AI • 07.11.2025 05:00

DreamGym: KI-Agenten lernen schneller durch synthetische Erfahrungen

arXiv – cs.AI • 07.11.2025 05:00

Empowerment kann Menschen in Mehrpersonen-Umgebungen entmachten

arXiv – cs.AI • 07.11.2025 05:00

Opus: Quantitatives Bewertungsmodell für Workflow-Optimierung

arXiv – cs.AI • 07.11.2025 05:00

Mehragenten nutzen prädiktives Codieren für gemeinsames räumliches Gedächtnis

arXiv – cs.AI • 07.11.2025 05:00

RLoop: Selbstverbesserndes RL-Framework steigert Generalisierung um 15 %