Evolutionäre Optimierung steigert LLMs zu System‑2‑Reasoning

arXiv – cs.AI Original ≈1 Min. Lesezeit
Anzeige

Die Vision von maschineller Intelligenz, die dem Menschen ebenbürtig ist, steht weiterhin im Fokus der Forschung. Während aktuelle Große Sprachmodelle (LLMs) beeindruckende Leistungen in vielen spezifischen Aufgaben zeigen, fehlt ihnen noch die generelle Denkfähigkeit, die mit dem sogenannten System‑2‑Denken (langsames, überlegtes Denken) verbunden ist.

In der vorliegenden Arbeit wird deshalb die Frage untersucht, ob LLMs durch evolutionäre Verfahren zu einer echten Denkfähigkeit entwickelt werden können. Dazu wird das „Evolutionäre Reasoning-Optimierung“ (ERO)-Framework vorgestellt, das eine Population von Modellen über einen Survival‑of‑the‑fittest‑Zyklus hinweg optimiert, um die höchste Bewertung in einer definierten Reasoning-Aufgabe zu erzielen.

Die Experimente zeigen zwei überraschende Ergebnisse: Erstens besitzen selbst die neuesten Modelle wie GPT‑5 noch begrenzte System‑2‑Fähigkeiten. Zweitens kann ein relativ schwaches Modell – hier Qwen‑7B – durch einen einfachen Evolutions‑Loop von ERO zu einer starken Reasoning‑Leistung aufgewertet werden.

Weitere Details und die reproduzierbare Implementierung sind auf GitHub verfügbar: https://github.com/MetaEvo/ERO.

Ähnliche Artikel