Benchmark prüft Web‑Agenten im E‑Commerce: Funktionalität & Sicherheit

arXiv – cs.AI Original ≈1 Min. Lesezeit
Anzeige

In der Welt der Online‑Shops haben Web‑Agenten bereits beeindruckende Fortschritte erzielt. Doch bisherige Tests konzentrierten sich fast ausschließlich auf die Suche nach Produkten – etwa „Apple Watch finden“. Diese Einengung lässt wichtige Funktionen wie Kontoverwaltung, Geschenkkarten oder das Verwalten von Wunschlisten unberücksichtigt.

Um diese Lücken zu schließen, wurde das neue Benchmark „Amazon‑Bench“ entwickelt. Dabei werden aus dem Inhalt von Webseiten und den interaktiven Elementen (Buttons, Checkboxen) vielfältige, funktionalitätsbasierte Nutzeranfragen generiert. So werden Aufgaben wie Adressverwaltung, Wunschlisten‑Management oder das Folgen von Marken‑Stores abgedeckt.

Ein automatisiertes Bewertungssystem prüft neben der Erfüllung der Anfragen auch die Sicherheit der Agenten. Die Analyse zeigte, dass aktuelle Modelle bei komplexen Aufgaben oft scheitern und dabei unbeabsichtigte Änderungen vornehmen können – etwa falsche Käufe oder das Löschen gespeicherter Adressen. Diese Ergebnisse unterstreichen den dringenden Bedarf an robusteren, sicherheitsorientierten Agenten.

Ähnliche Artikel