FlashSampling: Schnelles, speichereffizientes Exact Sampling für LLMs
FlashSampling ist ein neues, exakt arbeitendes Sampling-Primitive, das die Stichprobe direkt in die Matrix‑Multiplikation des LM‑Heads einbettet. Dadurch entfällt die Materialisierung des Logits‑Tensors im Hauptspeicher…
- FlashSampling ist ein neues, exakt arbeitendes Sampling-Primitive, das die Stichprobe direkt in die Matrix‑Multiplikation des LM‑Heads einbettet.
- Dadurch entfällt die Materialisierung des Logits‑Tensors im Hauptspeicher und die zusätzliche Bandbreite, die bei herkömmlichen Sampling‑Schritten entsteht.
- Der Ansatz berechnet die Logits in kleinen, chip‑internen Tiles, fügt Gumbel‑Rauschen hinzu und speichert lediglich den maximalen Wert pro Zeile und pro Vokabular‑Tile.
FlashSampling ist ein neues, exakt arbeitendes Sampling-Primitive, das die Stichprobe direkt in die Matrix‑Multiplikation des LM‑Heads einbettet. Dadurch entfällt die Materialisierung des Logits‑Tensors im Hauptspeicher und die zusätzliche Bandbreite, die bei herkömmlichen Sampling‑Schritten entsteht.
Der Ansatz berechnet die Logits in kleinen, chip‑internen Tiles, fügt Gumbel‑Rauschen hinzu und speichert lediglich den maximalen Wert pro Zeile und pro Vokabular‑Tile. Ein abschließender, kleiner Reduktionsschritt über die Tiles liefert das endgültige Ergebnis. Da die Argmax‑Operation über Partitionen dekomponiert werden kann, bleibt die Methode exakt, auch in gruppierten Varianten für Online‑ und Tensor‑Parallel‑Umgebungen.
In Tests auf NVIDIA‑GPUs wie H100, H200, B200 und B300 zeigte FlashSampling eine deutliche Beschleunigung der Decode‑Kernels. In End‑to‑End‑Experimenten mit vLLM verringerte es die Zeit pro Ausgabe‑Token um bis zu 19 % bei den untersuchten Modellen.
Diese Ergebnisse beweisen, dass exaktes Sampling ohne Approximation direkt in die Matmul‑Operation integriert werden kann und damit ein bandbreitenabhängiger Post‑Processing‑Schritt in ein leichtgewichtiges Epilog verwandelt. Weitere Informationen und den Quellcode finden Sie auf der Projektseite: https://github.com/FlashSampling/FlashSampling.
Welche Linse du auf diese Meldung legen solltest
Dieses Thema ist relevant, weil es zeigt, wie sich KI-Produkte, Modelle oder Rahmenbedingungen in der Praxis verschieben.
Achte zuerst darauf, was sich fuer Nutzer, Builder oder Unternehmen konkret veraendert und ob daraus ein nachhaltiger Trend entsteht.