Forschung
LLM-gesteuerte GuidedSAC beschleunigt Actor-Critic bei kontinuierlicher Steuerung
Ein neuer Reinforcement‑Learning‑Algorithmus namens GuidedSAC kombiniert die Soft Actor‑Critic (SAC) Methode mit großen Sprachmodellen (LLM…
arXiv – cs.LG