ShapE-GRPO: Shapley-basierte Belohnungsaufteilung verbessert LLM-Training
In modernen Interaktionsszenarien zwischen Nutzern und KI-Agenten – etwa bei Empfehlungen, Brainstorming oder Codevorschlägen – erzeugen große Sprachmodelle (LLMs) häufig mehrere Kandidaten gleichzeitig. Ziel ist dabei…