SODA: Semi On‑Policy Distillation für große Sprachmodelle
Die Distillation von Black‑Box‑Modellen für große Sprachmodelle steht vor einem strengen Kompromiss: Off‑Policy‑Methoden wie die sequentielle Wissensdistillation können die Fehler des Schülers kaum korrigieren, während…