Off-Policy-Sicheres Reinforcement Learning mit begrenzter optimistischer Exploration
Ein brandneues Verfahren namens COX‑Q (Constrained Optimistic eXploration Q‑learning) verspricht, die Sicherheit von Reinforcement‑Learning‑Systemen auf ein neues Niveau zu heben. Durch die Kombination von kostenbegrenz…