SFT‑GRPO: Weniger Datenüberlappung steigert Autoformalisationserfolge
In einer neuen Untersuchung wird gezeigt, dass die Art und Weise, wie Trainingsdaten zwischen Supervised Fine‑Tuning (SFT) und Group Relative Policy Optimization (GRPO) geteilt werden, entscheidend für die Leistung von…
- In einer neuen Untersuchung wird gezeigt, dass die Art und Weise, wie Trainingsdaten zwischen Supervised Fine‑Tuning (SFT) und Group Relative Policy Optimization (GRPO)…
- Das Team analysierte die Auswirkungen unterschiedlicher Datenüberlappungen auf das Modell Qwen3‑8B, das für die Lean‑4‑Autoformalisation eingesetzt wurde.
- Die Studie umfasste sechs kontrollierte Konfigurationen: ein Basismodell, SFT‑nur, GRPO‑nur sowie drei Kombinationen von SFT und GRPO mit 0 %, 30 % bzw.
In einer neuen Untersuchung wird gezeigt, dass die Art und Weise, wie Trainingsdaten zwischen Supervised Fine‑Tuning (SFT) und Group Relative Policy Optimization (GRPO) geteilt werden, entscheidend für die Leistung von Sprachmodellen bei der automatischen Formalisierung ist. Das Team analysierte die Auswirkungen unterschiedlicher Datenüberlappungen auf das Modell Qwen3‑8B, das für die Lean‑4‑Autoformalisation eingesetzt wurde.
Die Studie umfasste sechs kontrollierte Konfigurationen: ein Basismodell, SFT‑nur, GRPO‑nur sowie drei Kombinationen von SFT und GRPO mit 0 %, 30 % bzw. 100 % Überlappung der Prompt‑Daten. Durch diese systematische Variation konnten die Forscher isoliert die Effekte der Datenüberlappung untersuchen, ohne zusätzliche Rechenressourcen zu benötigen.
Die Ergebnisse sind eindeutig: Modelle, die SFT‑ und GRPO‑Daten strikt getrennt halten, erzielen bessere Ergebnisse als solche mit vollständiger Überlappung. Besonders bei 0 % Überlappung erzielte GRPO einen Anstieg der semantischen Genauigkeit um 10,4 Prozentpunkte gegenüber SFT allein auf dem Gaokao‑Formal‑Datensatz. Bei 100 % Überlappung blieben sowohl die Kompilierungs- als auch die semantische Genauigkeit unverändert, wodurch die GRPO‑Phase praktisch überflüssig wurde.
Ein weiteres Highlight der Arbeit ist die Entdeckung, dass die Kombination aus Kompilierungs- und semantischer Bewertung große Lücken von über 30 Prozentpunkten offenbart – ein Effekt, der bei rein kompilierungsbasierten Benchmarks nicht sichtbar wäre. Damit liefert die Studie erstmals eine kontrollierte Analyse der Datenüberlappung als Hyperparameter in SFT‑GRPO‑Workflows und verdeutlicht, wie sich das Modellverhalten je nach Grad der Datenteilung verändert.
Welche Linse du auf diese Meldung legen solltest
Dieses Thema ist relevant, weil es zeigt, wie sich KI-Produkte, Modelle oder Rahmenbedingungen in der Praxis verschieben.
Achte zuerst darauf, was sich fuer Nutzer, Builder oder Unternehmen konkret veraendert und ob daraus ein nachhaltiger Trend entsteht.
Kontext ohne Glossar-Suche
Wenn du nach dieser Meldung weiterlernen willst
Von dieser Meldung direkt in Hub, Analyse und Nachbarthemen
Achte zuerst darauf, was sich fuer Nutzer, Builder oder Unternehmen konkret veraendert und ob daraus ein nachhaltiger Trend entsteht.
Dieses Thema taucht in denselben KI-Entwicklungen regelmaessig mit auf und hilft beim groesseren Bild.
Dieses Thema taucht in denselben KI-Entwicklungen regelmaessig mit auf und hilft beim groesseren Bild.
Dieses Thema taucht in denselben KI-Entwicklungen regelmaessig mit auf und hilft beim groesseren Bild.