DualSparse‑MoE: Effiziente Sparsity‑Koordination für große Sprachmodelle
Die Mixture‑of‑Experts‑Architektur (MoE) hat sich als Standard für die Skalierung großer Sprachmodelle etabliert, indem sie pro Token nur einen kleinen Teil der Parameter aktiviert. Trotz dieser Sparsity bleiben die Modelle jedoch enorm rechenintensiv und ihre Aktivierungsmuster unvorhersehbar.
Forscher haben ein neues Konzept namens DualSparse‑MoE entwickelt, das die Sparsity sowohl auf Tensor‑ als auch auf Neuron‑Ebene gezielt nutzt. Durch eine nachträgliche Aufteilung der Experten – ohne erneutes Training – wird die Modellstruktur so angepasst, dass bereits vorhandene Sparsity‑Muster verstärkt werden. Dadurch bleibt die mathematische Konsistenz erhalten und die Effizienz steigt.
Das DualSparse‑MoE‑System kombiniert dynamisches Abschneiden von Tensor‑Berechnungen mit einer statischen Rekonstruktion der Neuronen. In Experimenten konnte ein ungefährer 25 %‑Reduktionsfaktor erreicht werden, während die Genauigkeit der drei getesteten MoE‑Modelle nur um 0,08 % bis 0,28 % fiel. Gleichzeitig erzielte die Methode proportional hohe Geschwindigkeitsgewinne bei der Inferenz.
Diese Fortschritte zeigen, dass gezielte Dual‑Sparsity‑Strategien die Leistungsfähigkeit von MoE‑Modellen deutlich verbessern können, ohne dass umfangreiche Retraining‑Schritte nötig sind. Die Technologie verspricht damit einen wichtigen Schritt in Richtung effizienterer und skalierbarer KI‑Anwendungen.