Grouter beschleunigt MoE-Training durch vorweggenommene Routenoptimierung
Traditionelles Mixture-of-Experts‑Training verknüpft gleichzeitig das Lernen der Expertengewichte mit der Suche nach einer optimalen Routing‑Strategie. Diese enge Kopplung führt häufig zu langsamer Konvergenz und Instab…