Feedback Descent: Textoptimierung durch strukturierte Rückmeldungen
Ein neues Verfahren namens Feedback Descent nutzt strukturierte Text‑Feedbacks, um Texte, Prompt‑Ketten, Code‑Snippets und sogar Moleküle zu optimieren – und das ohne die üblichen skalaren Belohnungen. Durch die Beibehaltung detaillierter Kritiken statt deren Vereinfachung zu binären Präferenzen erweitert Feedback Descent den Informationsfluss im Lernprozess und ermöglicht gezielte Optimierungen direkt im Textraum.
Die Technik setzt auf In‑Context‑Learning, um strukturierte Rückmeldungen in gradientenähnliche Richtungsinformationen zu verwandeln. So können gezielte Textänderungen vorgenommen werden, ohne die Modellgewichte zu verändern. Im Gegensatz zu bisherigen Ansätzen, die Bewertungen auf ein einziges Bit reduzieren, koppelt Feedback Descent jede Paarvergleichsanfrage mit ausführlichem Text‑Feedback, was als hochbandbreitige Anleitung fungiert.
Der Optimierungszyklus läuft ausschließlich zur Inferenzzeit ab und ist damit auf jede Aufgabe anwendbar. In drei unterschiedlichen Domänen – Prompt‑Optimierung, Reinforcement‑Learning‑basierte Textverbesserung und molekulare Design‑Aufgaben – übertrifft Feedback Descent etablierte Methoden wie GEPA, GRPO, REINVENT und spezialisierte graphbasierte Moleküloptimierer.
Besonders beeindruckend ist die Leistung im DOCKSTRING‑Molekülentdeckungs‑Benchmark: Feedback Descent liefert neue, medikamentenähnliche Moleküle, die den 99,9‑Perzentilwert einer Datenbank mit über 260.000 Verbindungen bei sechs Protein‑Zielen übertreffen. Diese Ergebnisse zeigen, dass strukturierte Text‑Feedbacks ein mächtiges Werkzeug für die Optimierung von Text‑ und Molekülartefakten darstellen.