Forschung
FAAR: Format‑Aware Adaptive Rounding für NVFP4‑Quantisierung
Die Ausführung großer Sprachmodelle (LLMs) auf Edge‑Geräten erfordert Quantisierungen mit extrem niedriger Bit‑Tiefe. Das Ultra‑Low‑Precisi…
arXiv – cs.LG