Effiziente Quantisierung von Mixture-of-Experts mit theoretischer Sicherheit
Spurige Mixture-of-Experts (MoE) ermöglichen es, Sprach‑ und Bildmodelle effizient zu skalieren, indem pro Eingabe nur ein kleiner Teil der Experten aktiviert wird. Trotz der reduzierten Rechenlast bleibt die enorme Par…