UltraMemV2 erreicht mit 120 B Parametern die Leistung von 8‑Expert MoE-Modellen
Die neueste Version des Memory‑Layer‑Netzwerks, UltraMemV2, hat mit 120 B Gesamtparametern die gleiche Leistungsfähigkeit wie aktuelle 8‑Expert‑MoE‑Modelle erreicht – und das bei deutlich weniger Speicherzugriffen.
Während Mixture‑of‑Experts‑Modelle durch die Aktivierung nur kleiner Parameter‑Teile sehr effizient sind, entstehen bei der Inferenz hohe Kosten für den Speicherzugriff. Memory‑Layer‑Architekturen bieten eine attraktive Alternative, weil sie nur wenige Speicherzugriffe benötigen. Frühere Versuche wie UltraMem konnten jedoch die Leistung von 2‑Expert‑MoE‑Modellen nur knapp erreichen und blieben weit hinter den 8‑Expert‑Konfigurationen zurück.
UltraMemV2 schließt diese Lücke durch fünf zentrale Verbesserungen: (1) Einbindung von Memory‑Lagen in jeden Transformer‑Block, (2) Vereinfachung der Value‑Expansion mittels einer einzigen linearen Projektion, (3) Nutzung von FFN‑basiertem Value‑Processing aus PEER, (4) principled Parameter‑Initialisierung und (5) Ausbalancierung des Verhältnisses zwischen Memory‑ und FFN‑Berechnungen.
Durch umfangreiche Tests zeigt UltraMemV2, dass es bei gleicher Rechenleistung und gleicher Parameterzahl die Leistung von 8‑Expert‑MoE‑Modellen erreicht, dabei aber die Speicherzugriffe stark reduziert. Besonders bei speicherintensiven Aufgaben erzielt es deutliche Verbesserungen: +1,6 Punkte bei Langkontext‑Speicherung, +6,2 Punkte bei Mehr‑Runden‑Speicherung und +7,9 Punkte bei In‑Context‑Learning. Die Skalierung wurde bis zu 2,5 B aktivierten Parametern aus 120 B Gesamtparametern validiert, wobei die Aktivierungsdichte einen größeren Einfluss auf die Leistung hat als die Gesamtzahl der sparsamen Parameter.
Damit demonstriert UltraMemV2, dass Memory‑Layer‑Architekturen nun die Leistungsparität mit den führenden MoE‑Modellen erreichen können, während sie gleichzeitig die Speicherzugriffe minimieren.