Mehr Präzision bei Suchvorschlägen: Mehrstufiges Alignment für generative Anfragen
Generative Query Suggestion mit großen Sprachmodellen bietet enorme Chancen, aber die Ausrichtung der Vorschläge an die feinen Präferenzen der Nutzer bleibt ein zentrales Problem.
In der neuen Studie wird ein mehrstufiges Alignment‑Framework vorgestellt, das die Generierungsstrategie schrittweise an die Nutzerintention anpasst. Der Prozess beginnt mit Prompt‑Engineering als Kaltstart‑Strategie, gefolgt von einer überwachtes Feintuning‑Phase, in der ein Distillationsverfahren auf Klick‑Logs angewendet wird, um ein robustes Basismodell zu schaffen.
Um die Unsicherheit der Nutzerpräferenzen besser abzubilden, wird ein Gaussisches Belohnungsmodell (GaRM) eingesetzt, das Präferenzen als Wahrscheinlichkeitsverteilungen statt als feste Werte darstellt. Anschließend wird mittels Verstärkendes Lernen die Generierungsstrategie an diese Verteilungen angepasst, wobei eine zusammengesetzte Belohnungsfunktion verwendet wird, die GaRM mit zusätzlichen Heuristiken kombiniert, um Belohnungsmanipulation zu verhindern.
Zur Stabilität des Trainings kommt ein neu entwickeltes Außer‑Verteilungs-Regularisierungsmittel sowie eine zweistufige Belohnungsfusion hinzu. Umfangreiche Experimente zeigen, dass das Framework die bisherigen Baselines sowohl bei automatischen als auch bei menschlichen Bewertungen deutlich übertrifft und in Live‑A/B‑Tests einen 34 %igen Anstieg der Klickrate erzielt.