FAAR: Format‑Aware Adaptive Rounding für NVFP4‑Quantisierung
Die Ausführung großer Sprachmodelle (LLMs) auf Edge‑Geräten erfordert Quantisierungen mit extrem niedriger Bit‑Tiefe. Das Ultra‑Low‑Precision‑Format NVFP4 bietet hier eine vielversprechende Lösung, um Speicherbedarf zu…