TwIST: Effiziente Sparsifizierung von LLMs ohne Nachbearbeitung

arXiv – cs.LG Original ≈1 Min. Lesezeit
Anzeige

Mit dem neuen Framework TwIST wird die Sparsifizierung großer Sprachmodelle revolutioniert. Durch paralleles Training mehrerer Subnetzwerke, deren periodische Parameteraggregation und das wiederholte Resampling neuer Subnetzwerke identifiziert TwIST automatisch hochwertige „goldene Tickets“ – leistungsstarke, sparsifizierte Modelle – ohne jegliche Nachbearbeitung.

Das Ergebnis ist ein Zero‑Cost‑Pruning, das bei starkem Sparsifizierungsgrad (über 50 %) die Leistung deutlich über bestehende Methoden hinaussetzt. TwIST erreicht beispielsweise eine Perplexität von 23,14, während der nächstbeste Ansatz noch 31,64 beträgt. Gleichzeitig liefert das Verfahren strukturierte, dichte Matrizen, die auf Standard‑CPUs echte Geschwindigkeitssprünge und Speicherersparnisse ermöglichen.

TwIST bietet damit einen effizienten Weg, sparsifizierte LLMs direkt im Trainingsprozess zu erzeugen, ohne zusätzliche Feinabstimmung oder Wiederherstellungsaufwand. Die Technologie macht hochkomplexe Sprachmodelle nicht nur schneller, sondern auch zugänglicher für den Einsatz in realen Anwendungen.

Ähnliche Artikel