AdaGradSelect: Adaptive Blockauswahl beschleunigt das Feintuning von SLMs
Große Sprachmodelle (LLMs) lösen zahlreiche NLP-Aufgaben zuverlässig, doch ein vollständiges Feintuning ist kostenintensiv und erfordert viel Speicher. Parameter‑Effiziente Feintuning‑Methoden wie LoRA senken diese Kosten, indem sie kleine Low‑Rank‑Updates zu eingefrorenen Gewichten hinzufügen. Diese Vorgehensweise beschränkt jedoch den Lernraum und kann die Leistung beeinträchtigen.
Für kleine Sprachmodelle (SLMs), bei denen Effizienz noch wichtiger ist, stellt AdaGradSelect eine adaptive Lösung vor. Die Methode wählt gezielt die Transformer‑Blöcke aus, die während des Trainings die höchsten Gradientennormen aufweisen, und aktualisiert nur diese. Frühere Beobachtungen zeigten, dass ein solcher Fokus bereits die Leistung des vollständigen Feintunings nahezu erreicht.
AdaGradSelect kombiniert Dirichlet‑basierte Stichproben, die auf der bisherigen Aktualisierungsfrequenz der Blöcke beruhen, mit einer epsilon‑greedy‑Explorationsstrategie. Dadurch kann das Verfahren in den ersten Trainingsphasen verschiedene Blöcke erkunden und später gezielt die wichtigsten aktualisieren. Experimente demonstrieren, dass AdaGradSelect rund 12 % schneller trainiert, 35 % weniger GPU‑Speicher verbraucht und gleichzeitig nahezu die gleiche Leistung wie ein vollständiges Feintuning liefert.
Auf dem GSM8K‑Datensatz übertrifft AdaGradSelect LoRA (Rank 256) um etwa 3 % durchschnittlich bei Modellen wie Qwen2.5‑0.5B, LLaMA3.2‑1B und Phi4‑mini‑3.8B. Ähnliche Genauigkeiten werden auch auf dem MATH‑Datensatz erzielt. Insgesamt bietet AdaGradSelect eine effektivere und ressourcenschonendere Alternative zu herkömmlichen PEFT‑Ansätzen für kleine Sprachmodelle.