Forschung
Reinforcement Learning für Tool‑Calling Agenten: Leistung um 11,5 pp gesteigert
Forscher haben erstmals die Kombination aus Multi‑Turn Group Relative Policy Optimization (MT‑GRPO) und Generalized Token‑level Policy Opti…
arXiv – cs.AI