Neue Distillationsmethode nutzt privilegierte Infos für bessere Sprachmodelle
Forscher haben eine neue Technik entwickelt, mit der Sprachmodelle durch „privilegierte Informationen“ (PI) während des Trainings außergewöhnliche Leistungen erzielen können. Das Problem besteht darin, dass PI nur im Training verfügbar ist, während die Modelle im Einsatz ohne diese Zusatzinformationen arbeiten müssen.
Im Fokus steht die Distillation von hochentwickelten Agenten in mehrstufigen, interaktiven Umgebungen. Bei vielen kommerziellen Systemen bleibt der interne Denkprozess verborgen – nur die Aktionen werden veröffentlicht. Dadurch scheitern herkömmliche Distillationsverfahren, die auf beobachtbarem Verhalten und zugrunde liegendem Denken beruhen.
Zur Lösung stellen die Autoren π‑Distill vor, ein gemeinsames Lehrer‑Schüler-Objektiv, das einen PI‑basierten Lehrer und einen unbedingten Schüler gleichzeitig mit demselben Modell trainiert. Zusätzlich wird On‑Policy Self‑Distillation (OPSD) eingeführt, bei dem Reinforcement‑Learning mit einer umgekehrten KL‑Strafe zwischen Schüler und PI‑Lehrer arbeitet.
Beide Ansätze zeigen, dass Agenten effektiv mit ausschließlich Aktions‑PI distilliert werden können. In zahlreichen Benchmarks übertrafen π‑Distill und OPSD die branchenüblichen Methoden, die auf Supervised‑Fine‑Tuning gefolgt von RL setzen und vollständige Chain‑of‑Thought‑Supervision voraussetzen.
Die Studie liefert zudem eine umfassende Analyse der Faktoren, die das Lernen mit PI ermöglichen, und legt damit einen wichtigen Grundstein für die Weiterentwicklung leistungsfähiger Sprachmodelle ohne Abhängigkeit von internen Denkprozessen.