ThinkPilot: Automatisierte Optimierung von Reasoning-Modellen mit Think-Prefixes

Ein neues, trainingsfreies Framework namens ThinkPilot verspricht, die Leistungsfähigkeit großer Reasoning-Modelle (LRMs) deutlich zu steigern. Durch einen evolutionären Prozess werden sogenannte Think‑Prefixes generiert – kurze Anweisungen, die das Modell gezielt zu effizienterem und zielgerichteterem Denken führen.

Die Experimente zeigen, dass ThinkPilot die Balance zwischen Genauigkeit und Rechenzeit verbessert, die Sicherheit erhöht und die Befolgung von Anweisungen optimiert. Ein Beispiel: Bei DeepSeek‑R1‑Distill‑Qwen‑32B sank der StrongREJECT‑Score von 27,0 % auf lediglich 0,7 %. Darüber hinaus lässt sich ThinkPilot nahtlos mit bestehenden trainierten Methoden kombinieren.

Die Analyse legt nahe, dass Think‑Prefixes zuverlässig das Verhalten von LRMs steuern können und dass unterschiedliche Aufgaben spezifische Verhaltensmuster bevorzugen. Durch die automatische Identifikation und Aktivierung dieser Muster bietet ThinkPilot einen generalisierten Ansatz, um Reasoning-Modelle an die Anforderungen einzelner Aufgaben anzupassen.

Alle Daten und der Code stehen auf GitHub zur Verfügung: https://github.com/teqkilla/ThinkPilot.

Ähnliche Artikel