MPC mit differenzierbaren Weltmodellen verbessert Offline RL
Offline‑Reinforcement‑Learning (RL) versucht, optimale Entscheidungsstrategien ausschließlich aus statischen Datensätzen zu lernen, ohne weitere Interaktionen mit der Umgebung. Dabei werden meist eine Offline‑Policy ode…