Neue Methode stärkt kleine Sprachmodelle durch gezielte Exploration
Forscher haben eine innovative Technik namens Recall‑Extend Dynamics (RED) vorgestellt, die die Leistungsfähigkeit kleiner Sprachmodelle (SLMs) deutlich verbessert. Durch die Kombination von distillierten Daten aus großen Modellen mit Reinforcement Learning mit verifizierbaren Belohnungen (RLVR) auf den kleinen Modellen selbst, schafft RED einen neuen Ansatz, der bisherige Grenzen überwindet.
Der Kern von RED liegt in der gezielten Steuerung des Explorationsraums und der ausgewogenen Integration von Offline‑Distillation und Online‑Reinforcement‑Learning. Durch die Überwachung der Entropieänderungen des Modells im Vergleich zu Offline‑ und Online‑Daten wird das Gewicht der Offline‑SFT dynamisch angepasst. So wird das Problem einer zu engen Exploration bei kleinen Modellen sowie die Redundanz und Komplexität während des Distillationsprozesses effektiv adressiert.
Zusätzlich entwickelt RED einen auf Stichproben‑Genauigkeit basierenden Policy‑Shift‑Mechanismus, der flexibel entscheidet, ob das Modell die distillierten Offline‑Daten imitiert oder aus seiner eigenen Politik lernt. Diese dynamische Anpassung reduziert die Diskrepanz zwischen den Offline‑Daten und der aktuellen Policy und sorgt für eine robustere und effizientere Lernumgebung für kleine Sprachmodelle.