From Correction to Mastery: Reinforced Distillation of Large Language Model Agents
Anzeige
Ähnliche Artikel
arXiv – cs.AI
•
Weltmodelle als Brücke: Agenten meistern kostenintensive Aufgaben
arXiv – cs.LG
•
Robuste KI-Logik: GASP stärkt Modelle gegen fehlerhafte Eingaben
arXiv – cs.AI
•
AMA: Adaptive Memory durch Multi-Agenten-Kollaboration
arXiv – cs.AI
•
PolyBench: KI-Benchmark für Polymerdesign – Kleine Modelle schlagen Giganten
arXiv – cs.AI
•
MAS-Orchestra: Mehr Intelligenz durch ganzheitliche Agentenkoordination
arXiv – cs.LG
•
CoScale‑RL: Effizientes Post‑Training Skalieren von Daten und Rechenleistung