Beschleunigung von Inferenz mit spekulativem Decoding auf AWS Trainium und vLLM
In diesem Beitrag zeigen wir, wie spekulatives Decoding die Inferenz von großen Sprachmodellen beschleunigt und die Kosten pro Token auf AWS Trainium2 deutlich reduziert. Spekulatives Decoding nutzt die Parallelität von…