Dynamisches Rang-Optimierungslernen verbessert Effizienz von LLMs
In einer neuen Veröffentlichung auf arXiv wird das Konzept des Dynamic Rank Reinforcement Learning (DR‑RL) vorgestellt, das die Low‑Rank‑Faktorisierung der Multi‑Head Self‑Attention (MHSA) in großen Sprachmodellen (LLMs) adaptiv optimiert. Durch die Kombination von Reinforcement Learning und Online‑Matrix‑Perturbationstheorie kann DR‑RL die optimale Ranghöhe in Echtzeit bestimmen und so die Rechenleistung deutlich reduzieren, ohne die Genauigkeit zu beeinträchtigen.
Traditionelle Low‑Rank‑Ansätze setzen auf feste Rangannahmen, die in unterschiedlichen Eingabekontexten oft unflexibel sind. DR‑RL nutzt einen RL‑Agenten, der das Rang‑Auswahlproblem als sequentielle Policy‑Optimierung formuliert. Der Reward‑Funktion wird dabei ein Gleichgewicht zwischen Aufmerksamkeits‑Fidelity und Rechenlatenz zugeschrieben. Durch Online‑Matrix‑Perturbationsgrenzen können Rangänderungen inkrementell vorgenommen werden, wodurch der aufwändige Voll‑Decomposition‑Schritt während der Inferenz vermieden wird.
Zur Skalierbarkeit wird ein leichtgewichtiges Transformer‑basierte Policy‑Netzwerk eingesetzt, das in Kombination mit batched Singular Value Decomposition (SVD) Operationen auf modernen GPU‑Architekturen effizient arbeitet. Diese Architektur ermöglicht eine schnelle Anpassung der Ranghöhe, selbst bei sehr langen Sequenzen.
Experimentelle Ergebnisse zeigen, dass DR‑RL die downstream‑Genauigkeit statistisch gleichwertig zum Voll‑Rank‑Attention hält, während die Anzahl der Floating‑Point‑Operations (FLOPs) – besonders bei Sequenzen mit mehr als 4096 Token – signifikant reduziert wird. Das Verfahren verbindet adaptive Effizienz mit theoretischer Fundierung und bietet damit eine solide Alternative zu heuristischen Rang‑Reduktionsmethoden in ressourcenbeschränkten Umgebungen.