WebSight: Vision-basierter Web-Agent setzt neue Maßstäbe

arXiv – cs.AI Original ≈1 Min. Lesezeit
Anzeige

Mit WebSight wird die Interaktion mit dem Web neu definiert: Der Agent arbeitet ausschließlich über visuelle Wahrnehmung und benötigt keine HTML- oder DOM-Informationen.

Im Mittelpunkt steht das Modell WebSight‑7B, ein feinabgestimmtes Vision‑Language‑Modell, das mit LoRA auf einem webbasierten Teil des Wave‑UI‑25K‑Datensatzes trainiert wurde. Es ist speziell auf die Interaktion mit UI‑Elementen ausgelegt.

WebSight nutzt eine modulare Multi‑Agent‑Architektur, die aus Planungs-, Denk-, Vision‑Action‑ und Verifizierungsagenten besteht. Diese werden über einen episodischen Speichermechanismus koordiniert, um Aktionen zu planen, auszuführen und zu überprüfen.

Die Ergebnisse sprechen für sich: WebSight‑7B erzielt mit 58,84 % Top‑1‑Genauigkeit im Showdown Clicks‑Benchmark die beste Leistung unter vergleichbaren Modellen und bleibt dabei schneller. Der komplette Agent erreicht 68,0 % Erfolgsrate im WebVoyager‑Benchmark und übertrifft dabei Systeme von OpenAI (61,0 %) und HCompany (67,0 %). Bei Aufgaben wird WebSight korrekt beantwortet, 97,14 % der Zeit.

WebSight und WebSight‑7B setzen damit neue Maßstäbe für interpretierbare, robuste und effiziente visuelle Web‑Navigation.

Ähnliche Artikel