LLM-Inference auf IoT: Adaptive Split-Computing reduziert Speicher und Latenz

arXiv – cs.LG Original ≈2 Min. Lesezeit
Anzeige

Große Sprachmodelle (LLMs) erreichen inzwischen nahezu menschliche Leistungen in einer Vielzahl von Denkaufgaben, doch ihre Nutzung auf ressourcenbeschränkten Internet-of-Things-Geräten bleibt bislang unrealistisch. Der Hauptgrund dafür ist der enorme Parameterumfang und der speicherintensive, autoregressive Decodierungsprozess, bei dem Tokens nacheinander generiert werden und ein wachsender Key‑Value‑Cache entsteht.

Split‑Computing, bei dem die Ausführung eines Modells zwischen Edge‑Geräten und Cloud‑Servern aufgeteilt wird, bietet hier einen vielversprechenden Ansatz. Bisherige Lösungen berücksichtigen jedoch nicht die speziellen Anforderungen der autoregressiven Inferenz, insbesondere die iterative Token‑Generierung und die sich vergrößernde KV‑Cache‑Größe. Das neue Framework adressiert diese Lücken gezielt.

Die drei Kerninnovationen des Ansatzes sind: Erstens die One‑Point‑Split‑Compression (OPSC), ein Mixed‑Precision‑Quantisierungsschema, das das Modell in Front‑End‑ und Back‑End‑Segmente mit unterschiedlichen Präzisionen aufteilt, um Out‑of‑Memory‑Fehler zu verhindern. Zweitens ein zweistufiger Kompressions‑Pipeline, die Threshold‑Splitting (TS) und token‑weise adaptive Bit‑Quantisierung (TAB‑Q) kombiniert, um entscheidende Aktivierungen zu erhalten und gleichzeitig die Kommunikationslast drastisch zu senken. Drittens ein einheitliches Optimierungsframework, das Split‑Points, Quantisierungseinstellungen und Sequenzlängen gleichzeitig auswählt, um strenge Speicher‑ und Latenz‑Grenzen einzuhalten.

Umfangreiche Tests an verschiedenen LLM‑Architekturen und Hardware‑Plattformen zeigen, dass diese Methode die Leistung deutlich verbessert, ohne die Genauigkeit zu beeinträchtigen. Damit eröffnet sie einen praktikablen Weg, hochleistungsfähige Sprachmodelle auch auf kleinen, vernetzten Geräten einzusetzen.

Ähnliche Artikel