DeepSeek‑V3: 41 % schnellere Vortrainingsleistung dank MXFP8 und DeepEP auf B200
In einer gemeinsamen Initiative von PyTorch und Nebius konnten wir die Vortrainingszeit von DeepSeek‑V3 Mixture‑of‑Experts Modellen – sowohl der 16‑Billionen‑Parameter‑Variante als auch der 671‑Billionen‑Parameter‑Varia…