Forschung
Neuer optimaler Regret-Bound für Policy-Optimierung in Kontextbandits
Wissenschaftler haben erstmals einen hochwahrscheinlich optimalen Regret-Bound für die Policy‑Optimierung in stochastischen Kontextbandits…
arXiv – cs.LG