Z-Pruner: Effizientes Post-Training-Pruning großer Sprachmodelle ohne Retraining
Große Sprachmodelle (LLMs) haben in den letzten Jahren enorme Fortschritte erzielt, bringen jedoch gleichzeitig enorme Modellgrößen mit sich, die die Bereitstellung, Skalierbarkeit und Energieeffizienz stark belasten. Um diesen Herausforderungen zu begegnen, gewinnt das Post-Training‑Pruning an Bedeutung, weil es die Modellgröße und die Inferenzlatenz reduziert, ohne dass ein erneutes Training erforderlich ist.
Der neue Ansatz Z‑Pruner kombiniert die Analyse von Gewichtsanpassungsgrößen und Aktivierungsmustern, um redundante Parameter in vortrainierten LLMs gezielt zu entfernen. Im Gegensatz zu bisherigen Methoden, die häufig zu Leistungseinbußen führen oder auf aufwändige Feinabstimmungen angewiesen sind, arbeitet Z‑Pruner ohne jegliches Retraining und bleibt dabei modellunabhängig, effizient und leicht implementierbar.
In umfangreichen Tests mit den populären Architekturen LLaMA‑2, LLaMA‑3 und OPT zeigte Z‑Pruner die niedrigsten Perplexitätswerte und die höchste durchschnittliche Genauigkeit bei Zero‑Shot‑Aufgaben. Damit übertrifft es den aktuellen Stand der Technik bei prunings, die intensive Gewichtsanpassungen erfordern. Der Quellcode ist frei verfügbar unter https://github.com/sazzadadib/Z-Pruner.