Bi-LoRA: Effizientes Sharpness‑Aware Fine‑Tuning für große Modelle

arXiv – cs.LG Original ≈1 Min. Lesezeit
Anzeige

Die Feinabstimmung von hochgradig vortrainierten Modellen mit nur wenigen Daten bleibt eine große Herausforderung. Der Ansatz Sharpness‑Aware Minimization (SAM) verbessert zwar die Generalisierung, erfordert jedoch erhebliche zusätzliche Speicher- und Rechenressourcen, die bei sehr großen Modellen kaum praktikabel sind.

Eine vielversprechende Lösung ist die Kombination von SAM mit parameter‑effizienten Methoden wie Low‑Rank Adaptation (LoRA). Doch wenn SAM direkt auf die LoRA‑Parameter angewendet wird, beschränkt sich die Optimierung der Schärfe auf einen engen Unterraum, was die Wirksamkeit einschränkt.

Um dieses Problem zu lösen, wurde Bi‑LoRA entwickelt. Das Verfahren führt ein zusätzliches LoRA‑Modul ein, das die adversarialen Gewichtsperturbationen von SAM modelliert. Dadurch werden die SAM‑Perturbationen von der eigentlichen LoRA‑Optimierung getrennt: Das primäre LoRA‑Modul passt sich mit konventionellem Gradientenabstieg an die jeweilige Aufgabe an, während das Hilfs‑Modul die Schärfe des Verlustlandschapes durch Gradientenaufstieg erfasst.

Durch dieses duale Design kann Bi‑LoRA eine breitere Schärfe erfassen, flachere Minima erreichen und gleichzeitig speichereffizient bleiben. Außerdem ermöglicht die gleichzeitige Optimierung und Perturbation die Beseitigung der doppelten Trainingskosten, die bei herkömmlichem SAM entstehen.

Umfangreiche Experimente an verschiedenen Aufgaben und Architekturen zeigen, dass Bi‑LoRA sowohl effizient als auch wirksam ist und die Generalisierung von großen Modellen signifikant verbessert.

Ähnliche Artikel