Geometrische Anker: Neue Methode stärkt Robustheit bei LLM-Alignment
Eine neue Technik namens Geometric Anchor Preference Optimization (GAPO) verspricht, die Zuverlässigkeit bei der Ausrichtung großer Sprachmodelle deutlich zu erhöhen.
Traditionelle Verfahren wie Direct Preference Optimization (DPO) nutzen eine feste Referenzpolitik, um Updates zu regulieren. Wenn diese Politik jedoch mit der Zeit abdriftet, wird die Referenz zunehmend ungenau, was zu Verteilungskonflikten führt und fehlerhafte Präferenzsignale verstärkt. Referenzfreie Varianten umgehen das Problem, leiden aber häufig unter unkontrolliertem Reward‑Drift.
GAPO ersetzt die statische Referenz durch einen dynamischen, geometrisch bewussten Anker: eine gegnerische lokale Störung innerhalb eines kleinen Radius, die als pessimistische Basis dient. Dieser Anker ermöglicht eine adaptive Gewichtung der Präferenzpaare, wobei die Wichtigkeit jedes Paares anhand seiner lokalen Sensitivität angepasst wird.
Ein zentrales Konzept ist der Anchor Gap, der Unterschied zwischen der aktuellen Policy und ihrem Anker. Unter glatten Bedingungen nähert sich dieser Gap der worst‑case lokalen Margin‑Degradation an. Durch die Optimierung einer logistischen Zielfunktion, gewichtet nach diesem Gap, werden geometrisch fragile Instanzen abgewertet, während robuste Präferenzsignale betont werden.
In einer Vielzahl von Rauschbedingungen hat GAPO konsistent die Robustheit verbessert und erreicht oder übertrifft die Leistung auf Standard‑LLM‑Alignment‑ und Reasoning‑Benchmarks.
GAPO stellt damit einen vielversprechenden Ansatz dar, um die Zuverlässigkeit von LLM‑Ausrichtungsprozessen zu erhöhen, indem es dynamische geometrische Anker nutzt und gleichzeitig die Gefahr von Reward‑Drift reduziert.