Expert-Choice Routing steigert Effizienz von Diffusion-Sprachmodellen
Diffusion‑Sprachmodelle (DLMs) ermöglichen eine parallele, nicht‑autoregressive Textgenerierung. In bisherigen Mixture‑of‑Experts‑Versionen wird jedoch die Token‑Choice‑Routing‑Logik aus autoregressiven Systemen übernom…