Forschung
On‑Policy-Expertenkorrekturen steigern Multi‑Turn-LM-Agenten
Im Bereich der Sprachmodell‑Agenten hat sich das Training über Imitationslernen etabliert: Modelle werden anhand von Experten‑Trajektorien…
arXiv – cs.LG