KI News. Verstehen, was wichtig wird.

Suche Anmelden

Suche

Finde Modelle, Firmen und Themen

Suche im News-Archiv nach Themen, die du dauerhaft verfolgen willst.

Ergebnisse für “MT‑GRPO”

Reinforcement Learning für Tool‑Calling Agenten: Leistung um 11,5 pp gesteigert

Forscher haben erstmals die Kombination aus Multi‑Turn Group Relative Policy Optimization (MT‑GRPO) und Generalized Token‑level Policy Opti…

arXiv – cs.AI 06.04.2026 04:00