WebOperator: Bäumeuche für autonome Web-Agenten mit sicherer Rückverfolgung
LLM-basierte Agenten handeln häufig gierig und entscheiden sich Schritt für Schritt ausschließlich nach der aktuellen Beobachtung. In Web‑Umgebungen, die nur teilweise beobachtbar sind – etwa durch den sichtbaren DOM und UI‑Elemente – führt ein einziger Fehltritt oft zu komplexen und fehleranfälligen Navigationsschritten, um den Fehler zu korrigieren. Ohne einen expliziten Rückverfolgungsmechanismus haben Agenten kaum Möglichkeiten, Fehler zu beheben oder alternative Pfade systematisch zu erkunden.
Tree‑Search‑Methoden bieten einen strukturierten Rahmen für solche Erkundungen, doch bisher fehlten sie an sicheren Rückverfolgungsstrategien. Viele Ansätze gehen fälschlicherweise davon aus, dass alle Aktionen reversibel sind, und ignorieren irreversible Handlungen, was ihre Wirksamkeit in realen Web‑Aufgaben stark einschränkt.
WebOperator löst diese Probleme, indem es ein Tree‑Search‑Framework mit zuverlässiger Rückverfolgung und strategischer Erkundung einführt. Durch eine best‑first‑Suche werden Aktionen nach Belohnungsabschätzungen und Sicherheitsaspekten bewertet. Ein robuster Rückverfolgungsmechanismus prüft vor dem Wiedergabe eines Pfades dessen Durchführbarkeit, sodass unbeabsichtigte Nebenwirkungen vermieden werden.
Darüber hinaus generiert WebOperator Aktionskandidaten aus mehreren, vielfältigen Denk‑Kontexten, um eine breite und robuste Erkundung zu gewährleisten. Anschließend kuratiert es ein hochwertiges Aktionsset, das die Effektivität und Sicherheit der Agenten in komplexen Web‑Umgebungen deutlich verbessert.