SFT kann über Domain hinweg generalisieren – Bedingungen und Kosten
Die neue Studie stellt die weit verbreitete Annahme in Frage, dass bei der Feinabstimmung von Sprachmodellen (SFT) ausschließlich auswendig gelernt wird, während Reinforcement‑Learning (RL) die eigentliche Generalisieru…