Praxis
DeepSeek‑V3: 41 % schnellere Vortrainingsleistung dank MXFP8 und DeepEP auf B200
In einer gemeinsamen Initiative von PyTorch und Nebius konnten wir die Vortrainingszeit von DeepSeek‑V3 Mixture‑of‑Experts Modellen – sowoh…
PyTorch – Blog