Forschung arXiv – cs.LG

EvoESAP: Nicht-Uniformes Expertenpruning für Sparse MoE – Mehr Leistung

Die neuesten Sparse Mixture-of-Experts (SMoE) Sprachmodelle kombinieren starke Leistungsfähigkeit mit geringer pro‑Token‑Rechenlast. In der Praxis bleiben sie jedoch an Speicher‑ und Durchsatzgrenzen gebunden, weil die…

≈2 Min. Lesezeit Originalquelle
Visuelle Illustration fuer KI-Kontext
Kernaussagen
Das nimmst du aus dem Beitrag mit
  • Die neuesten Sparse Mixture-of-Experts (SMoE) Sprachmodelle kombinieren starke Leistungsfähigkeit mit geringer pro‑Token‑Rechenlast.
  • In der Praxis bleiben sie jedoch an Speicher‑ und Durchsatzgrenzen gebunden, weil die komplette Expertenmenge gespeichert und bedient werden muss.
  • Traditionelle Post‑Training‑Pruning‑Methoden reduzieren diese Kosten, konzentrieren sich jedoch meist auf die Auswahl der zu entfernenden Experten innerhalb einer Schich…

Die neuesten Sparse Mixture-of-Experts (SMoE) Sprachmodelle kombinieren starke Leistungsfähigkeit mit geringer pro‑Token‑Rechenlast. In der Praxis bleiben sie jedoch an Speicher‑ und Durchsatzgrenzen gebunden, weil die komplette Expertenmenge gespeichert und bedient werden muss.

Traditionelle Post‑Training‑Pruning‑Methoden reduzieren diese Kosten, konzentrieren sich jedoch meist auf die Auswahl der zu entfernenden Experten innerhalb einer Schicht und setzen dabei eine gleichmäßige Sparsity‑Verteilung über alle Schichten voraus. EvoESAP löst dieses Problem, indem es die Pruning‑Entscheidungen in zwei Schritte trennt: erst die Rangfolge der Experten innerhalb einer Schicht und anschließend die Verteilung des Sparsity‑Budgets über die Schichten hinweg.

Im Zentrum steht der neue ESAP‑Metrik, ein spekulativ‑decodiertes, teacher‑forced Verfahren, das misst, wie gut ein gepruntes Modell das volle Modell repliziert. ESAP ist stabil, begrenzt und ermöglicht einen kostengünstigen Vergleich zahlreicher Kandidaten ohne aufwändige autoregressive Decodierung. Aufbauend auf ESAP entwickelt EvoESAP einen evolutionären Suchrahmen, der unter festem globalem Budget eine nicht‑uniforme Schicht‑weise Sparsity‑Allokation optimiert, während die innerhalb‑Schicht‑Pruning‑Reihenfolge unverändert bleibt. Das Verfahren ist plug‑and‑play und unterstützt Kriterien wie Frequency, EAN, SEER und REAP.

In umfangreichen Tests mit 7 B bis 30 B SMoE‑LLMs bei 25 % und 50 % Sparsity zeigte EvoESAP konsequent nicht‑uniforme Allokationen, die die offene Textgenerierung um bis zu 19,6 % auf MATH‑500 bei 50 % Sparsity steigerten, ohne die Genauigkeit bei Multiple‑Choice‑Aufgaben zu beeinträchtigen – ein deutlicher Vorteil gegenüber der herkömmlichen, gleichmäßigen Pruning‑Strategie.

Einordnen in 60 Sekunden

Welche Linse du auf diese Meldung legen solltest

Dieses Thema ist relevant, weil es zeigt, wie sich KI-Produkte, Modelle oder Rahmenbedingungen in der Praxis verschieben.

Achte zuerst darauf, was sich fuer Nutzer, Builder oder Unternehmen konkret veraendert und ob daraus ein nachhaltiger Trend entsteht.

Was veraendert sich praktisch?
Ist das eher Signal, Produkt oder nur kurzfristiger Hype?
Begriffe zum Einordnen

Kontext ohne Glossar-Suche

Sparse Mixture-of-Experts
Dieses Thema ist relevant, weil es zeigt, wie sich KI-Produkte, Modelle oder Rahmenbedingungen in der Praxis verschieben.
Pruning
Dieses Thema ist relevant, weil es zeigt, wie sich KI-Produkte, Modelle oder Rahmenbedingungen in der Praxis verschieben.
EvoESAP
Dieses Thema ist relevant, weil es zeigt, wie sich KI-Produkte, Modelle oder Rahmenbedingungen in der Praxis verschieben.
arXiv – cs.LG
Diese Quelle setzt den Ausgangspunkt fuer die Meldung. Pruefe immer, ob sie eher Forschung, Produktmarketing oder Praxisperspektive liefert.
Naechste Schritte

Aehnliche Entwicklungen zum Weiterlesen