Forschung
ShapE-GRPO: Shapley-basierte Belohnungsaufteilung verbessert LLM-Training
In modernen Interaktionsszenarien zwischen Nutzern und KI-Agenten – etwa bei Empfehlungen, Brainstorming oder Codevorschlägen – erzeugen gr…
arXiv – cs.AI