PATHFINDER: Monte-Carlo-Suche + LLM-Feedback für Multi-Hop-Answering
Die Herausforderung des Multi-Hop-Question-Answering besteht darin, dass ein Sprachmodell mehrere logische Schritte durchlaufen muss, um die korrekte Antwort zu finden. Aktuelle Systeme nutzen große Sprachmodelle (LLMs), um Fragen in Teilaufgaben zu zerlegen, Informationen abzurufen und zu analysieren. Dennoch leiden trainingsbasierte Ansätze häufig unter Halluzinationen und falschen Beweiswegen, was die Leistung stark einschränkt.
Mit dem neuen Ansatz PATHFINDER wird dieses Problem angegangen. Erstellt werden mithilfe von Monte‑Carlo‑Tree‑Search (MCTS) Trainingspfade, die die möglichen Beweiswege abbilden. Anschließend werden fehlerhafte und zu lange Pfade gezielt herausgefiltert – dafür nutzt PATHFINDER eine Kombination aus Unterantwort‑Erinnerung und einer LLM‑basierte „Judge“-Verifikation. Zusätzlich werden Teilfragen neu formuliert, wenn die ursprüngliche Suche fehlschlägt, um fehlende Informationen zu kompensieren.
Durch diese drei Schritte konnte PATHFINDER die Qualität der Trainingsdaten deutlich steigern und die Leistung bei Multi‑Hop‑Question‑Answering auf mehreren öffentlichen Benchmark‑Datensätzen signifikant verbessern. Der Ansatz zeigt, dass die Kombination aus strukturierter Pfadsuche und LLM‑Feedback ein vielversprechender Weg ist, um die Zuverlässigkeit von KI‑gestützten Frage‑Antwortsystemen zu erhöhen.