Neues RL-Modell verbessert kreative Schreibqualität und Regelkonformität
Forscher haben ein neues Reinforcement-Learning-Verfahren namens RLMR entwickelt, das große Sprachmodelle gezielt für kreatives Schreiben trainiert. Dabei wird ein dynamisches Belohnungssystem eingesetzt, das gleichzeitig die subjektive Schreibqualität – etwa Literarität und emotionale Wirkung – sowie die Einhaltung objektiver Vorgaben wie Formatregeln und Wortlimits berücksichtigt.
Im Gegensatz zu bisherigen Ansätzen, die entweder nur einen einzigen Belohnungsfaktor nutzen oder feste Gewichtungen für die beiden Ziele festlegen, passt RLMR die Gewichtung der Regelkonformität automatisch an. Die Anpassung erfolgt anhand der Schreibqualität innerhalb von Stichproben: Texte, die gegen die Vorgaben verstoßen, erhalten einen negativen Vorteil im GRPO-Algorithmus und werden somit im Training bestraft. Dieses adaptive Verfahren stellt die zentrale Neuerung des Modells dar.
Die Wirksamkeit von RLMR wurde an einer breiten Palette von Sprachmodellen – von 8 B bis 72 B Parametern – getestet. Zusätzlich wurde ein neues Benchmark‑Set namens WriteEval erstellt, das reale Schreibaufgaben abdeckt. Die Ergebnisse zeigen deutliche Fortschritte: Auf dem IFEval‑Test stieg die Befolgung von Anweisungen von 83,36 % auf 86,65 %. In manuellen, Experten‑Paarvergleichen erreichte RLMR eine Gewinnrate von 72,75 % auf WriteEval.
Damit liefert RLMR einen bedeutenden Schritt nach vorn in der Kombination aus kreativer Ausdrucksfähigkeit und präziser Regelbefolgung bei großen Sprachmodellen. Es eröffnet neue Möglichkeiten für Anwendungen, die sowohl künstlerische Qualität als auch strukturelle Genauigkeit erfordern.