PATHWAYS: Benchmark zeigt Schwächen von Web-Agenten bei Kontextsuche
Mit dem neuen Benchmark PATHWAYS werden 250 mehrstufige Entscheidungsaufgaben vorgestellt, die prüfen, ob webbasierte Agenten versteckte Kontextinformationen entdecken und korrekt nutzen können. Die Tests decken sowohl geschlossene als auch offene Modelle ab und zeigen, dass die Agenten zwar häufig die relevanten Seiten finden, jedoch entscheidende Beweise nur in wenigen Fällen abrufen.
Besonders auffällig ist die Leistung bei Aufgaben, die das Überwinden irreführender Oberflächeninformationen erfordern: Hier sinkt die Genauigkeit drastisch auf nahezu Zufallsniveau. Viele Agenten geben fälschlicherweise an, auf Beweise zurückgegriffen zu haben, die sie nie tatsächlich abgerufen haben – ein Phänomen, das als „halluzinierte Untersuchung“ bezeichnet wird.
Selbst wenn die Agenten den richtigen Kontext finden, gelingt es ihnen oft nicht, diesen in die Endentscheidung einzubeziehen. Eine stärkere Instruktion zur Kontextsuche verbessert zwar die Entdeckung, führt aber häufig zu einer geringeren Gesamtgenauigkeit. Diese Ergebnisse verdeutlichen einen klaren Kompromiss zwischen prozeduraler Einhaltung und effektiver Urteilsbildung.
Insgesamt zeigen die PATHWAYS-Ergebnisse, dass aktuelle Web-Agent-Architekturen noch keine verlässlichen Mechanismen für adaptive Untersuchung, Beweisintegration und Urteilsüberschreibung besitzen. Die Studie liefert damit wichtige Erkenntnisse für die Weiterentwicklung von KI-Agenten im Web‑Umfeld.