REMO: Reflexionsbasierte Meta-Optimierung verbessert Prompt-Performance von LLMs
In einer kürzlich veröffentlichten Studie auf arXiv wird das neue Framework REMO vorgestellt, das die Art und Weise, wie große Sprachmodelle (LLMs) mit Textprompts optimiert werden, grundlegend verändert. Während bestehende Methoden wie TextGrad die Prompt-Optimierung automatisch und gradientenähnlich durchführen, bleiben sie statisch und nutzen keine gesammelten Erfahrungen aus vorherigen Optimierungen.
REMO kombiniert zwei innovative Komponenten: Erstens ein Memory‑Augmented Reflection Retrieval‑Augmented Generation (RAG) Modul, das als „Fehler‑Notizbuch“ fungiert und vergangene Optimierungsergebnisse speichert. Zweitens einen Self‑Adaptive Optimizer, der von einem LLM‑gesteuerten Meta‑Controller betrieben wird und auf epoch‑basierten Reflexionen aufbaut, um die Prompt‑Strategien kontinuierlich zu verfeinern.
Durch diese Architektur kann REMO nicht nur lokale, feinkörnige Prompt‑Tuning‑Schritte wie bei TextGrad durchführen, sondern auch das Wissen aus verschiedenen Runs systematisch sammeln und wiederverwenden. Das Ergebnis ist eine nachhaltige Verbesserung der Generalisierung über Zeit hinweg.
Die Autoren haben REMO mit dem Modell Qwen3‑32B in Standard‑Inference‑Modus getestet – ohne explizite Chain‑of‑Thought‑Prompts – und die Leistung am GSM8K‑Benchmark für mathematisches Problemlösen bewertet. Im Vergleich zum TextGrad‑Baseline zeigte REMO stabilere und robustere Ergebnisse, wobei ein moderater Kostenunterschied zu verzeichnen war.
Diese Entwicklung markiert einen wichtigen Schritt in Richtung lernfähiger, selbstreflektierender Prompt‑Optimierungssysteme, die langfristig die Leistungsfähigkeit von LLMs in spezialisierten Aufgaben steigern können.