Neues COUPLE-Framework steuert pluralistische Werte in Sprachmodellen
Mit der zunehmenden Verbreitung großer Sprachmodelle in Anwendungen, die Menschen aus unterschiedlichen Kulturen, Gemeinschaften und Bevölkerungsgruppen bedienen, wird die Ausrichtung dieser Modelle auf pluralistische menschliche Werte immer wichtiger. Traditionelle Ansätze behandeln mehrere Werte oft als unabhängige, gleichwertige Faktoren und vernachlässigen damit die komplexen Wechselwirkungen und Prioritäten, die in psychologischen und soziologischen Wertetheorien wie der Schwartz‑Theorie beschrieben werden.
Das neue COUPLE‑Framework (COunterfactual reasoning for PLuralistic valuE alignment) löst diese Probleme, indem es ein strukturelles kausales Modell einführt, das die Interdependenzen und Priorisierungen zwischen Wertedimensionen sowie deren kausale Beziehung zu konkreten Verhaltensweisen abbildet. Durch den Einsatz von Gegenfaktischen Argumentationen kann COUPLE gezielt Ausgaben erzeugen, die exakt den gewünschten Wertvorstellungen entsprechen, und bietet gleichzeitig eine verbesserte Interpretierbarkeit.
In Tests auf zwei Datensätzen mit unterschiedlichen Wertensystemen hat COUPLE die Leistung anderer Basismethoden in allen untersuchten Wertetypen übertroffen, was die Effektivität von kausalem, gegenfaktischem Denken für die Steuerung pluralistischer Werte in Sprachmodellen unterstreicht.