Kontextbewusste MoE-Inferenz auf CXL-fähigen GPU‑NDP-Systemen

arXiv – cs.LG Original ≈2 Min. Lesezeit
Anzeige

Die neueste Forschung zeigt, wie Mixture‑of‑Experts‑Modelle (MoE) die Skalierung großer Sprachmodelle durch bedingte Berechnung beschleunigen können, ohne dabei an Speichergrenzen zu scheitern. Sobald die Gewichte der Experten die Kapazität von GPU‑Speicher übersteigen, werden sie in externen Speicher ausgelagert – ein Prozess, der wiederholte und kostenintensive Datenübertragungen verursacht.

Um dieses Problem zu lösen, nutzt die Studie CXL‑attached Near‑Data Processing (CXL‑NDP) als Offloading‑Tier. Dadurch werden kalte Experten direkt im Speicher ausgeführt, wodurch teure Parameterbewegungen in kostengünstigere Aktivierungsbewegungen umgewandelt werden. Im Gegensatz zu bisherigen GPU‑NDP‑Systemen, die kontextunabhängig und reaktiv arbeiten, entwickelt die neue Lösung ein kontextbewusstes MoE‑System. Es verwendet Aktivierungsstatistiken aus der Vorab‑Lade‑Phase, um die Platzierung der Experten während der Decodierung zu steuern, „heiße“ Experten dynamisch im GPU‑seitigen HBM zu verankern und die restlichen Experten auf CXL‑NDP zu verschieben.

Um die begrenzte Rechenleistung von NDP zu kompensieren, führt die Arbeit eine kontextbewusste Mixed‑Precision‑Quantisierung ein, die pro Experte Bitbreiten von 1 bis 4 Bit je nach Vorab‑Lade‑Phase zuweist. Das Ergebnis ist ein MoE‑Inference‑System, das GPU‑ und NDP‑Ausführung überlappt und gleichzeitig die Datenbewegung zwischen den Geräten minimiert.

Die Evaluation auf einem GPU‑NDP‑System demonstriert, dass die neue Methode die Decodier‑Durchsatzrate um bis zu 8,7‑fach im Vergleich zum aktuellen Stand der Technik steigert, während die durchschnittliche Genauigkeitsdifferenz lediglich 0,13 % beträgt. Diese Fortschritte markieren einen bedeutenden Schritt in Richtung effizienterer, skalierbarer KI‑Inference auf modernen Hardware‑Architekturen.

Ähnliche Artikel