Forschung
GrMoE: Neue Routing‑Methode für Mixture‑of‑Experts mit kontrollierter Sparsität
Mixture‑of‑Experts‑Modelle setzen auf Router, um Tokens an Experten zu verteilen. Die gängige Softmax‑Gating‑Methode bietet jedoch keine kl…
arXiv – cs.LG