MoE-Expertenspezialisierung: Routing spiegelt Geometrie, nicht Fachwissen wider
In der Welt der großen Sprachmodelle sind Mixture-of-Experts (MoEs) mittlerweile allgegenwärtig. Doch warum scheinen bestimmte Experten immer wieder die gleichen Tokens zu bearbeiten? Ein neues Papier aus dem arXiv klär…