Forschung
Ein einheitlicher Blick auf Abdeckung in linearer Off-Policy-Bewertung
Off‑Policy‑Evaluation (OPE) ist ein zentrales Problem im Reinforcement Learning, bei dem die Zielwertfunktion anhand von Daten, die unter e…
arXiv – cs.LG