Reinforcement Learning für Tool‑Calling Agenten: Leistung um 11,5 pp gesteigert
Forscher haben erstmals die Kombination aus Multi‑Turn Group Relative Policy Optimization (MT‑GRPO) und Generalized Token‑level Policy Optimization (GTPO) eingesetzt, um Tool‑Calling Agenten für realistische Kundendiens…