Forschung
Grouter beschleunigt MoE-Training durch vorweggenommene Routenoptimierung
Traditionelles Mixture-of-Experts‑Training verknüpft gleichzeitig das Lernen der Expertengewichte mit der Suche nach einer optimalen Routin…
arXiv – cs.LG