RADAR beschleunigt LLM‑Inferenz dank RL‑basierter dynamischer Entwurfsbäume

arXiv – cs.AI Original ≈1 Min. Lesezeit
Anzeige

Die Ausführung moderner Large Language Models (LLMs) ist bislang teuer und langsam. Eine vielversprechende Lösung ist das sogenannte speculative sampling, bei dem ein „Draft“-Modell Kandidatentoken erzeugt. Allerdings ist die Anzahl der Aufrufe dieses Draft‑Modells ein festgelegter Hyperparameter, der wenig Flexibilität bietet.

Mit dem neuen Ansatz RADAR wird dieses Problem gelöst. RADAR formuliert die Erzeugung von Draft‑Bäumen als einen Markov‑Entscheidungsprozess (MDP) und nutzt Offline‑Reinforcement‑Learning, um ein Vorhersagemodell zu trainieren. Dieses Modell trifft in Echtzeit Entscheidungen darüber, wann das Draft‑Modell aufgerufen wird, wodurch unnötige Berechnungen vermieden und die Inferenzgeschwindigkeit deutlich erhöht wird.

In Tests mit drei unterschiedlichen LLMs und vier Aufgaben erzielte RADAR eine Beschleunigung von 3,17‑ bis 4,82‑fach im Vergleich zum herkömmlichen autoregressiven Decodierungsverfahren. Der komplette Code ist frei verfügbar unter https://github.com/minaduki-sora/RADAR.

Ähnliche Artikel