Learning Rate ist entscheidend: Vanilla LoRA reicht für LLM-Fine‑Tuning

arXiv – cs.LG Original ≈1 Min. Lesezeit
Anzeige

Low‑Rank Adaptation (LoRA) bleibt die führende Methode für effizientes Fine‑Tuning großer Sprachmodelle. In den letzten Jahren wurden jedoch verschiedene Initialisierungsstrategien und architektonische Änderungen vorgeschlagen, die angeblich bessere Ergebnisse liefern als das klassische LoRA.

In dieser Untersuchung wurden vier repräsentative LoRA‑Varianten zusammen mit dem Standard‑LoRA systematisch verglichen. Dabei wurden umfangreiche Hyperparameter‑Suchen durchgeführt, um die optimale Lernrate für jede Variante zu bestimmen.

Die Ergebnisse zeigen, dass jede LoRA‑Variante unterschiedliche Lernratenbereiche bevorzugt. Sobald die Lernrate jedoch korrekt eingestellt ist, erreichen alle Methoden nahezu identische Spitzenleistungen – innerhalb von 1 – 2 %. Die Unterschiede zwischen den Varianten sind daher nur subtil und hängen von der Rang‑Einstellung ab.

Diese Erkenntnisse legen nahe, dass das klassische LoRA weiterhin ein starkes Basismodell darstellt. Verbesserungen, die in früheren Studien unter einer einzigen Trainingskonfiguration erzielt wurden, spiegeln möglicherweise nicht echte methodische Vorteile wider, sondern lediglich die Wirkung spezifischer Hyperparameter‑Einstellungen.

Eine zweite‑Ordnung‑Analyse erklärt die unterschiedlichen optimalen Lernraten durch die Größe der größten Hessian‑Eigenwerte, was klassische Lerntheorien bestätigt.

Ähnliche Artikel