Suche

Finde Modelle, Firmen und Themen

Suche im News-Archiv nach Themen, die du dauerhaft verfolgen willst.

Ergebnisse für “Parametrierung”
Forschung

<h1>Latent Spherical Flow Policy: 20 % bessere RL bei kombinatorischen Aktionen</h1> <p>Reinforcement‑Learning‑Agenten, die mit kombinatorischen Aktionsräumen arbeiten, stehen vor einer enormen Herausforderung: Die Menge möglicher Aktionen wächst exponentiell, und gleichzeitig müssen komplexe Gültigkeitsbedingungen erfüllt werden. Dadurch ist eine direkte Parametrierung einer Policy praktisch unmöglich.</p> <p>Aktuelle Ansätze versuchen, die Aufgabe in Form von wertbasierten Optimierungsprogrammen zu lösen

arXiv – cs.LG