CAS-Spec: Cascade Adaptive Self-Speculative Decoding for On-the-Fly Lossless Inference Acceleration of LLMs

arXiv – cs.AI Original
Anzeige

Ähnliche Artikel