Nested-ReFT: Effizientes RL für das Feintuning großer Sprachmodelle
Ein neues arXiv-Papier mit der Bezeichnung Nested-ReFT präsentiert einen innovativen Ansatz, um das Feintuning großer Sprachmodelle (LLMs) für anspruchsvolle Aufgaben wie mathematisches Denken deutlich effizienter zu gestalten. Der Kern der Methode liegt in der Kombination von Off‑Policy‑Reinforcement‑Learning und spekulativem Decoding, wodurch die Anzahl der erforderlichen Inferenzschritte während des Trainings drastisch reduziert wird.
Im traditionellen ReFT-Framework erzeugt ein Verhaltenmodell mehrere mögliche Antworten zu einer Aufgabe, die anschließend von einer Belohnungsfunktion bewertet werden. Diese Vorgehensweise führt zu hohen Rechenkosten, da für jede Trainingsiteration mehrere Inferenzschritte nötig sind. Nested-ReFT löst dieses Problem, indem ein Teil der Schichten des Zielmodells als Verhaltenmodell fungiert. Durch dynamisches Überspringen von Schichten während der Batch‑Verarbeitung sinkt die Inferenzlast erheblich, während die Gradienten unverzerrt bleiben und die Varianz kontrolliert wird.
Die Autoren zeigen theoretisch, dass die geschätzten Gradienten im Nested-ReFT-Ansatz unverzerrt sind und die Varianz im Rahmen bleibt. Praktisch demonstrieren sie, dass die Methode die Tokens‑pro‑Sekunde‑Rate bei verschiedenen mathematischen Benchmark‑Aufgaben und Modellgrößen verbessert. Zusätzlich wurden drei Varianten zur Bias‑Minderung entwickelt, die die Off‑Policy‑Einflüsse in den Gradienten reduzieren und gleichzeitig die Leistungsfähigkeit auf dem Niveau des klassischen ReFT halten.
Insgesamt bietet Nested-ReFT einen vielversprechenden Weg, die Effizienz von RL‑basiertem Feintuning zu steigern, ohne die Qualität der Ergebnisse zu beeinträchtigen. Der Ansatz könnte die praktische Anwendung von LLMs in ressourcenintensiven Szenarien erheblich erleichtern.