Neue Path-Constrained MoE-Architektur verbessert Sprachmodelle
Eine neue Variante der Sparse Mixture-of-Experts (MoE) – PathMoE – verspricht, die Effizienz von Sprachmodellen noch weiter zu steigern. Traditionell wählen MoE‑Modelle die Experten in jeder Schicht unabhängig voneinand…