Context-Picker: Dynamische Kontextauswahl mit mehrstufigem Reinforcement Learning

arXiv – cs.AI Original ≈1 Min. Lesezeit
Anzeige

In der langen Kontextfragebeantwortung (Long‑Context QA) stellt die Wahl des optimalen Kontextumfangs ein zentrales Problem dar. Zu wenige Passagen können wichtige Informationen vernachlässigen, während zu viele Passagen unnötigen Lärm erzeugen und die Antwortqualität mindern. Traditionelle Methoden wie feste Top‑K‑Retrievals oder ein‑stufiges Re‑Ranking stoßen dabei an ihre Grenzen, insbesondere bei faktenbasierten Fragen, die nur wenige, präzise Belege benötigen.

Um dieses Problem zu lösen, präsentiert das neue Framework Context‑Picker. Es wandelt die Kontextauswahl von einer reinen Ähnlichkeits‑Bewertung in einen Entscheidungsprozess um, der mittels eines menscheninspirierten, zweistufigen Reinforcement‑Learning‑Szenarios optimiert wird. Zunächst wird in einer „Recall‑orientierten“ Phase die Abdeckung von Argumentationsketten maximiert. Anschließend folgt eine „Precision‑orientierte“ Phase, die Redundanzen aggressiv entfernt und so ein kompaktes, aussagekräftiges Evidenz‑Set erzeugt.

Um das Problem der sparsamen Belohnungen zu überwinden, wurde ein Offline‑Evidenz‑Distillations‑Pipeline entwickelt, die mithilfe einer Leave‑One‑Out‑Methode „minimal ausreichende“ Sets extrahiert und damit dichte, auf die Aufgabe ausgerichtete Supervision liefert. Experimente an fünf Long‑Context‑ und Multi‑Hop‑QA‑Benchmarks zeigen, dass Context‑Picker die Leistung starker Retrieval‑Augmented‑Generation‑Baselines deutlich übertrifft. Dabei erreicht es höhere Antwortgenauigkeit bei vergleichbarer oder sogar kürzerer Kontextlänge. Ablationsstudien belegen, dass die schrittweise Optimierung entscheidend zum Erfolg beiträgt.

Ähnliche Artikel