Energieeffizienz bei LLM-Inferezen: optimale Eingabe-/Ausgabe-Längen

arXiv – cs.AI Original ≈1 Min. Lesezeit
Anzeige

Die Energie, die große Sprachmodelle (LLMs) bei der Inferenz verbrauchen, ist ein entscheidender Faktor für moderne KI-Anwendungen. Traditionelle Schätzungen beruhen meist auf einfachen linearen Funktionen, die die Eingabe- und Ausgabesequenzlängen berücksichtigen. Diese Vereinfachungen vernachlässigen jedoch wichtige nichtlineare Effekte, die die tatsächliche Energieeffizienz stark beeinflussen.

In einer neuen Studie wurde gezeigt, dass die höchste Energieeffizienz bei kurzen bis mittleren Eingaben und mittelgroßen Ausgaben erreicht wird. Bei sehr langen Eingaben oder extrem kurzen Ausgaben sinkt die Effizienz deutlich ab. Diese Beobachtungen legen nahe, dass es „Sweet Spots“ gibt, in denen LLMs besonders energieeffizient arbeiten.

Um diese Regime präzise zu beschreiben, entwickelte das Forschungsteam ein analytisches Modell, das die Rechen- und Speicherzugriffskomplexität der Transformer-Architektur nutzt. Das Modell kann die Effizienzkurve in Abhängigkeit von Eingabe- und Ausgabelängen exakt vorhersagen.

Die Genauigkeit des Modells wurde anhand von TensorRT‑LLM auf NVIDIA H100 GPUs getestet. Dabei wurden verschiedene LLMs – von 1 B bis 9 B Parametern – wie OPT, LLaMA, Gemma, Falcon, Qwen2 und Granite – mit Eingabe- und Ausgabelängen zwischen 64 und 4096 Tokens evaluiert. Das Ergebnis zeigte einen durchschnittlichen MAPE von nur 1,79 %.

Die Erkenntnisse ermöglichen es, Produktionssysteme gezielt zu optimieren: Durch das Ausrichten der Sequenzlängen auf die identifizierten Effizienz‑Sweet Spots lässt sich der Energieverbrauch erheblich senken. Dies unterstützt Strategien wie gezielte Trunkierung, Zusammenfassung und adaptive Generierung, wodurch KI-Anwendungen nicht nur leistungsfähiger, sondern auch nachhaltiger werden.

Ähnliche Artikel