Forschung
Off-Policy-Sicheres Reinforcement Learning mit begrenzter optimistischer Exploration
Ein brandneues Verfahren namens COX‑Q (Constrained Optimistic eXploration Q‑learning) verspricht, die Sicherheit von Reinforcement‑Learning…
arXiv – cs.LG