Unmaskierte Policy-Gradient-Algorithmen: Validitäts‑Suppression überwunden
Ein brandneues arXiv‑Veröffentlichung beleuchtet ein bislang wenig verstandenes Problem in der Verstärkungslern‑Forschung: Wenn Agenten in Umgebungen mit zustandsabhängiger Aktionsgültigkeit trainiert werden, kann das…