EvoESAP: Nicht-Uniformes Expertenpruning für Sparse MoE – Mehr Leistung
Die neuesten Sparse Mixture-of-Experts (SMoE) Sprachmodelle kombinieren starke Leistungsfähigkeit mit geringer pro‑Token‑Rechenlast. In der Praxis bleiben sie jedoch an Speicher‑ und Durchsatzgrenzen gebunden, weil die…
- Die neuesten Sparse Mixture-of-Experts (SMoE) Sprachmodelle kombinieren starke Leistungsfähigkeit mit geringer pro‑Token‑Rechenlast.
- In der Praxis bleiben sie jedoch an Speicher‑ und Durchsatzgrenzen gebunden, weil die komplette Expertenmenge gespeichert und bedient werden muss.
- Traditionelle Post‑Training‑Pruning‑Methoden reduzieren diese Kosten, konzentrieren sich jedoch meist auf die Auswahl der zu entfernenden Experten innerhalb einer Schich…
Die neuesten Sparse Mixture-of-Experts (SMoE) Sprachmodelle kombinieren starke Leistungsfähigkeit mit geringer pro‑Token‑Rechenlast. In der Praxis bleiben sie jedoch an Speicher‑ und Durchsatzgrenzen gebunden, weil die komplette Expertenmenge gespeichert und bedient werden muss.
Traditionelle Post‑Training‑Pruning‑Methoden reduzieren diese Kosten, konzentrieren sich jedoch meist auf die Auswahl der zu entfernenden Experten innerhalb einer Schicht und setzen dabei eine gleichmäßige Sparsity‑Verteilung über alle Schichten voraus. EvoESAP löst dieses Problem, indem es die Pruning‑Entscheidungen in zwei Schritte trennt: erst die Rangfolge der Experten innerhalb einer Schicht und anschließend die Verteilung des Sparsity‑Budgets über die Schichten hinweg.
Im Zentrum steht der neue ESAP‑Metrik, ein spekulativ‑decodiertes, teacher‑forced Verfahren, das misst, wie gut ein gepruntes Modell das volle Modell repliziert. ESAP ist stabil, begrenzt und ermöglicht einen kostengünstigen Vergleich zahlreicher Kandidaten ohne aufwändige autoregressive Decodierung. Aufbauend auf ESAP entwickelt EvoESAP einen evolutionären Suchrahmen, der unter festem globalem Budget eine nicht‑uniforme Schicht‑weise Sparsity‑Allokation optimiert, während die innerhalb‑Schicht‑Pruning‑Reihenfolge unverändert bleibt. Das Verfahren ist plug‑and‑play und unterstützt Kriterien wie Frequency, EAN, SEER und REAP.
In umfangreichen Tests mit 7 B bis 30 B SMoE‑LLMs bei 25 % und 50 % Sparsity zeigte EvoESAP konsequent nicht‑uniforme Allokationen, die die offene Textgenerierung um bis zu 19,6 % auf MATH‑500 bei 50 % Sparsity steigerten, ohne die Genauigkeit bei Multiple‑Choice‑Aufgaben zu beeinträchtigen – ein deutlicher Vorteil gegenüber der herkömmlichen, gleichmäßigen Pruning‑Strategie.
Welche Linse du auf diese Meldung legen solltest
Dieses Thema ist relevant, weil es zeigt, wie sich KI-Produkte, Modelle oder Rahmenbedingungen in der Praxis verschieben.
Achte zuerst darauf, was sich fuer Nutzer, Builder oder Unternehmen konkret veraendert und ob daraus ein nachhaltiger Trend entsteht.
Kontext ohne Glossar-Suche
Wenn du nach dieser Meldung weiterlernen willst
Von dieser Meldung direkt in Hub, Analyse und Nachbarthemen
Achte zuerst darauf, was sich fuer Nutzer, Builder oder Unternehmen konkret veraendert und ob daraus ein nachhaltiger Trend entsteht.
Dieses Thema taucht in denselben KI-Entwicklungen regelmaessig mit auf und hilft beim groesseren Bild.