CoS: Dynamisches Routing für LLMs steigert Genauigkeit um 65 % bei bAbI
Ein neues Framework namens Chain of Simulation (CoS) hat die Art und Weise, wie große Sprachmodelle (LLMs) komplexe Aufgaben lösen, revolutioniert. Durch dynamisches Routing werden Probleme automatisch an die jeweils passende Rechenstrategie weitergeleitet, was die Effizienz und Genauigkeit deutlich erhöht.
CoS nutzt drei spezialisierte Modus: Für mathematische Aufgaben wird ein „computational flow“ mit Selbstkonsistenz eingesetzt, für räumliche Probleme ein symbolisches Zustands‑Tracking mit JSON‑Darstellungen und für mehrstufige Inferenz ein hybrides Fakten‑Extraktionsverfahren. Diese gezielte Auswahl ermöglicht es, jede Problemart optimal zu bearbeiten.
In umfangreichen Tests auf den Benchmarks GSM8K, StrategyQA und bAbI zeigte CoS beeindruckende Ergebnisse. Mit vier führenden Modellen – Gemma‑3 27 B, LLaMA‑3.1 8 B, Mistral 7 B und Qwen‑2.5 14 B – erreichte das System 71,5 % Genauigkeit bei GSM8K (1,0 % absolute Verbesserung), 90,0 % bei StrategyQA (2,5 % Verbesserung) und 19,0 % bei bAbI, was einer relativen Steigerung von 65,2 % gegenüber den besten Baselines entspricht.
Die Analyse zeigt, dass die korrekte Modus‑Auswahl entscheidend ist: Der computational‑Modus erzielt bei mathematischen Aufgaben 81,2 % Genauigkeit, während ein falsches Routing die Leistung auf 0 % senken kann. CoS liefert klare Algorithmen für die Modus‑Selektion, das Zustands‑Tracking und die Antwortextraktion, ohne dass zusätzliche Trainingsschritte nötig sind.
Ein weiterer Vorteil ist die erhebliche Kosten‑Reduktion. Im Vergleich zu Self‑Consistency erreicht CoS vergleichbare Leistungen bei 54 % weniger Rechenaufwand, was die praktische Anwendbarkeit in ressourcenbeschränkten Umgebungen deutlich verbessert.