ELMoE-3D: Elastische MoE-Architektur beschleunigt On-Premises-Serving
Die Mixture-of-Experts (MoE)-Architektur ist heute die führende Technologie für große Sprachmodelle. In On‑Premises‑Umgebungen stößt sie jedoch an Speichergrenzen: Durch Batch‑Verarbeitung wird die sonst spärliche Token…