Reinforcement Learning für Tool‑Calling Agenten: Leistung um 11,5 pp gesteigert
Forscher haben erstmals die Kombination aus Multi‑Turn Group Relative Policy Optimization (MT‑GRPO) und Generalized Token‑level Policy Optimization (GTPO) eingesetzt, um Tool‑Calling Agenten für realistische Kundendiens…
- Forscher haben erstmals die Kombination aus Multi‑Turn Group Relative Policy Optimization (MT‑GRPO) und Generalized Token‑level Policy Optimization (GTPO) eingesetzt, um…
- Durch die Nutzung eines LLM‑basierten Benutzersimulators konnten sie die Herausforderungen von sparsamen Ergebnis‑Belohnungen und schwieriger Kreditzuweisung über mehrer…
- Eine detaillierte Analyse der Trainings‑Rollouts zeigte, dass einfach gestaltete dichte Belohnungen pro Gesprächsturn die Leistung um bis zu 14 Prozentpunkte senken, we…
Forscher haben erstmals die Kombination aus Multi‑Turn Group Relative Policy Optimization (MT‑GRPO) und Generalized Token‑level Policy Optimization (GTPO) eingesetzt, um Tool‑Calling Agenten für realistische Kundendienstaufgaben zu trainieren. Durch die Nutzung eines LLM‑basierten Benutzersimulators konnten sie die Herausforderungen von sparsamen Ergebnis‑Belohnungen und schwieriger Kreditzuweisung über mehrere Gesprächsturns hinweg adressieren.
Eine detaillierte Analyse der Trainings‑Rollouts zeigte, dass einfach gestaltete dichte Belohnungen pro Gesprächsturn die Leistung um bis zu 14 Prozentpunkte senken, weil die Belohnungsdiscriminativität nicht mit der Vorteil‑Richtung übereinstimmt. Um dieses Problem zu lösen, entwickelte das Team die Iterative Reward Calibration, eine Methode, die per‑Turn‑Belohnungen anhand empirischer Diskriminanz‑Analysen der Rollout‑Daten gestaltet. Gleichzeitig eliminiert die hybride Vorteil‑Formulierung von GTPO die Missanpassung zwischen Belohnung und Vorteil.
Auf dem Tau‑Bench Airline Benchmark erzielte die neue Methode beeindruckende Verbesserungen: Qwen3.5‑4B stieg von 63,8 % auf 66,7 % (+2,9 pp) und Qwen3‑30B‑A3B von 58,0 % auf 69,5 % (+11,5 pp). Der 4‑B‑Modell übertraf GPT‑4.1 (49,4 %) und GPT‑4o (42,8 %) – obwohl er 50‑mal kleiner ist – und das 30,5‑B‑MoE‑Modell kam Claude Sonnet 4.5 (70,0 %) nahe. Diese Ergebnisse stellen die ersten veröffentlichten RL‑Trainingsdaten für Tau‑Bench dar.
Die Autoren stellen ihren Code, die Analyse zur Belohnungskalibrierung und die Trainings‑Rezepte öffentlich zur Verfügung, um die Forschung in diesem vielversprechenden Bereich weiter voranzutreiben.
Welche Linse du auf diese Meldung legen solltest
Dieses Thema ist relevant, weil es zeigt, wie sich KI-Produkte, Modelle oder Rahmenbedingungen in der Praxis verschieben.
Achte zuerst darauf, was sich fuer Nutzer, Builder oder Unternehmen konkret veraendert und ob daraus ein nachhaltiger Trend entsteht.