Ansatz: Delightful Distributed Policy Gradient verbessert RL bei fehlerhaften Daten
In verteilten Verstärkungslern‑Systemen entstehen häufig Daten von veralteten, fehlerhaften oder nicht übereinstimmenden Akteuren. Diese Daten führen zu Aktionen mit hoher Überraschung (hohe negative Log‑Wahrscheinlichk…