SFT‑GRPO: Weniger Datenüberlappung steigert Autoformalisationserfolge
In einer neuen Untersuchung wird gezeigt, dass die Art und Weise, wie Trainingsdaten zwischen Supervised Fine‑Tuning (SFT) und Group Relative Policy Optimization (GRPO) geteilt werden, entscheidend für die Leistung von…