SonicMoE beschleunigt MoE-Modelle durch IO- und Tile-Optimierungen
Die neueste Veröffentlichung von SonicMoE zeigt, wie Mixture-of-Experts‑Modelle (MoE) noch effizienter skaliert werden können. Durch eine Kombination aus speichereffizienten Algorithmen, GPU‑Kernels, die Speicher‑IO mit Berechnungen überlappen, und einer innovativen „Token‑Rounding“-Methode reduziert SonicMoE den Aktivierungs‑Speicherbedarf um 45 % und steigert die Rechenleistung um 1,86‑fach im Vergleich zum ScatterMoE‑BF16‑Kernel auf Hopper‑GPUs.
Bei fein granularen MoEs, die kleinere Expertendimensionen und höhere Sparsität nutzen, entstehen häufig hohe Aktivierungs‑Speicher‑Footprints und ineffiziente Hardwareauslastung. SonicMoE adressiert diese Probleme, indem es die Aktivierungs‑Cache‑Speicherung für den Backward‑Pass minimiert und gleichzeitig die Speicher‑IO mit der eigentlichen Berechnung synchronisiert.
In praktischen Tests erreichte SonicMoE auf 64 H100‑GPUs eine Trainingsdurchsatzrate von 213 Milliarden Tokens pro Tag – ein Ergebnis, das mit dem von ScatterMoE auf 96 H100‑GPUs (225 Milliarden Tokens pro Tag) für ein 7‑Billionen‑Parameter‑MoE-Modell vergleichbar ist. Unter Bedingungen hoher MoE‑Sparsität liefert der tile‑bewusste Token‑Rounding‑Algorithmus zusätzliche Leistungssteigerungen von bis zu 1,1‑fach.
Diese Fortschritte markieren einen bedeutenden Schritt in Richtung skalierbarer, ressourcenschonender Sprachmodelle und eröffnen neue Möglichkeiten für die effiziente Nutzung von Hochleistungs-GPUs in der KI‑Forschung.