Effizientere Deep‑RL‑Politikkompression durch Zustandsbesuchsanalyse
Deep Reinforcement Learning (DRL) ist bekannt dafür, sehr viele Trainingsbeispiele zu benötigen, weil die Parameter eines Agenten in einem hochdimensionalen Raum liegen. Ein neues Verfahren namens Occupancy‑based Policy…