Forschung
MPC mit differenzierbaren Weltmodellen verbessert Offline RL
Offline‑Reinforcement‑Learning (RL) versucht, optimale Entscheidungsstrategien ausschließlich aus statischen Datensätzen zu lernen, ohne we…
arXiv – cs.LG