EvoESAP: Nicht-Uniformes Expertenpruning für Sparse MoE

Kernaussagen

Das nimmst du aus dem Beitrag mit

Die neuesten Sparse Mixture-of-Experts (SMoE) Sprachmodelle kombinieren starke Leistungsfähigkeit mit geringer pro‑Token‑Rechenlast.
In der Praxis bleiben sie jedoch an Speicher‑ und Durchsatzgrenzen gebunden, weil die komplette Expertenmenge gespeichert und bedient werden muss.
Traditionelle Post‑Training‑Pruning‑Methoden reduzieren diese Kosten, konzentrieren sich jedoch meist auf die Auswahl der zu entfernenden Experten innerhalb einer Schich…

Die neuesten Sparse Mixture-of-Experts (SMoE) Sprachmodelle kombinieren starke Leistungsfähigkeit mit geringer pro‑Token‑Rechenlast. In der Praxis bleiben sie jedoch an Speicher‑ und Durchsatzgrenzen gebunden, weil die komplette Expertenmenge gespeichert und bedient werden muss.

Traditionelle Post‑Training‑Pruning‑Methoden reduzieren diese Kosten, konzentrieren sich jedoch meist auf die Auswahl der zu entfernenden Experten innerhalb einer Schicht und setzen dabei eine gleichmäßige Sparsity‑Verteilung über alle Schichten voraus. EvoESAP löst dieses Problem, indem es die Pruning‑Entscheidungen in zwei Schritte trennt: erst die Rangfolge der Experten innerhalb einer Schicht und anschließend die Verteilung des Sparsity‑Budgets über die Schichten hinweg.

Im Zentrum steht der neue ESAP‑Metrik, ein spekulativ‑decodiertes, teacher‑forced Verfahren, das misst, wie gut ein gepruntes Modell das volle Modell repliziert. ESAP ist stabil, begrenzt und ermöglicht einen kostengünstigen Vergleich zahlreicher Kandidaten ohne aufwändige autoregressive Decodierung. Aufbauend auf ESAP entwickelt EvoESAP einen evolutionären Suchrahmen, der unter festem globalem Budget eine nicht‑uniforme Schicht‑weise Sparsity‑Allokation optimiert, während die innerhalb‑Schicht‑Pruning‑Reihenfolge unverändert bleibt. Das Verfahren ist plug‑and‑play und unterstützt Kriterien wie Frequency, EAN, SEER und REAP.

In umfangreichen Tests mit 7 B bis 30 B SMoE‑LLMs bei 25 % und 50 % Sparsity zeigte EvoESAP konsequent nicht‑uniforme Allokationen, die die offene Textgenerierung um bis zu 19,6 % auf MATH‑500 bei 50 % Sparsity steigerten, ohne die Genauigkeit bei Multiple‑Choice‑Aufgaben zu beeinträchtigen – ein deutlicher Vorteil gegenüber der herkömmlichen, gleichmäßigen Pruning‑Strategie.

Einordnen in 60 Sekunden

Welche Linse du auf diese Meldung legen solltest

Dieses Thema ist relevant, weil es zeigt, wie sich KI-Produkte, Modelle oder Rahmenbedingungen in der Praxis verschieben.

Achte zuerst darauf, was sich fuer Nutzer, Builder oder Unternehmen konkret veraendert und ob daraus ein nachhaltiger Trend entsteht.

Was veraendert sich praktisch?

Ist das eher Signal, Produkt oder nur kurzfristiger Hype?

Begriffe zum Einordnen

Kontext ohne Glossar-Suche

Sparse Mixture-of-Experts

Dieses Thema ist relevant, weil es zeigt, wie sich KI-Produkte, Modelle oder Rahmenbedingungen in der Praxis verschieben.

Pruning

Dieses Thema ist relevant, weil es zeigt, wie sich KI-Produkte, Modelle oder Rahmenbedingungen in der Praxis verschieben.

EvoESAP

Dieses Thema ist relevant, weil es zeigt, wie sich KI-Produkte, Modelle oder Rahmenbedingungen in der Praxis verschieben.

arXiv – cs.LG

Diese Quelle setzt den Ausgangspunkt fuer die Meldung. Pruefe immer, ob sie eher Forschung, Produktmarketing oder Praxisperspektive liefert.

Lernpfad

Wenn du nach dieser Meldung weiterlernen willst

Themen-Hub

Sparse Mixture-of-Experts systematisch verfolgen

Achte zuerst darauf, was sich fuer Nutzer, Builder oder Unternehmen konkret veraendert und ob daraus ein nachhaltiger Trend entsteht.

Archiv

Weitere Beispiele zu Sparse Mixture-of-Experts

Nutze das Archiv, um Muster, Wiederholungen und Trendlinien innerhalb des Themas zu sehen.

Im Themen-Cluster weiter

Von dieser Meldung direkt in Hub, Analyse und Nachbarthemen

Themen-Hub

Sparse Mixture-of-Experts

Achte zuerst darauf, was sich fuer Nutzer, Builder oder Unternehmen konkret veraendert und ob daraus ein nachhaltiger Trend entsteht.

1 Signale in 7 Tagen • 3 Artikel im Hub

Hub oeffnen →

Nachbar-Hub

Sprachmodelle

Dieses Thema taucht in denselben KI-Entwicklungen regelmaessig mit auf und hilft beim groesseren Bild.

2 gemeinsame Signale

EvoESAP: Nicht-Uniformes Expertenpruning für Sparse MoE – Mehr Leistung

Welche Linse du auf diese Meldung legen solltest

Kontext ohne Glossar-Suche

Wenn du nach dieser Meldung weiterlernen willst

Von dieser Meldung direkt in Hub, Analyse und Nachbarthemen

Aehnliche Entwicklungen zum Weiterlesen

Welche Linse du auf diese Meldung legen solltest

Kontext ohne Glossar-Suche

Wenn du nach dieser Meldung weiterlernen willst

Von dieser Meldung direkt in Hub, Analyse und Nachbarthemen

Aehnliche Entwicklungen zum Weiterlesen

🍪 Cookie-Einstellungen