GRASP: Neue PEFT-Methode reduziert Parameter um zehnfach und steigert Robustheit

arXiv – cs.LG Original ≈2 Min. Lesezeit
Anzeige

In der Welt der großen vortrainierten Sprachmodelle gewinnt das Parameter‑Effiziente Fine‑Tuning (PEFT) immer mehr an Bedeutung. Statt das komplette Modell zu verändern, passen PEFT‑Ansätze nur einen kleinen Teil der Gewichte an und ermöglichen so skalierbare Anpassungen. Mit dem neuen Framework GRASP (GRouped Activation Shared Parameterization) wird dieses Prinzip noch weiter optimiert.

GRASP teilt die D‑dimensionalen Token‑Repräsentationen ausgewählter Schichten in K << D Gruppen auf und lernt für jede Gruppe einen gemeinsamen Skalierungs‑ und Verschiebungsvektor. Durch diese gruppierte Modulation sinkt die Anzahl der trainierbaren Parameter drastisch, während das Modell weiterhin fähig bleibt, task‑spezifische Merkmale zu erlernen. Das Ergebnis ist ein schlankes, aber leistungsfähiges Fine‑Tuning‑Modell.

Um die Robustheit gegenüber Hardware‑Variabilität zu erhöhen, erweitert GRASP um die probabilistische Variante StochGRASP. Hier werden Gaußsche Verteilungen als Störungen zu den vortrainierten Gewichten gelernt, anstatt deterministische Werte zu verwenden. In Kombination mit einem noise‑aware Loss wird die Modellierung von Hardware‑Unschärfen ermöglicht, was die Leistung bei nicht‑idealen Inferenzbedingungen deutlich verbessert.

In umfangreichen Tests auf den GLUE‑Benchmarks (RoBERTa‑base & RoBERTa‑large) sowie bei der End‑to‑End‑NLG‑Aufgabe mit GPT‑2 Medium übertrifft GRASP etablierte PEFT‑Methoden wie LoRA und BitFit. Dabei reduziert es die Anzahl der trainierbaren Parameter um ein ganzes Ordnungsmal. Unter verschiedenen Rausch‑Levels zeigt StochGRASP konsequent bessere Ergebnisse als deterministische Varianten und beweist damit seine Eignung für energieeffiziente, rauschempfindliche Edge‑Hardware.

Ähnliche Artikel