Neuer Benchmark Emergence WebVoyager verbessert Bewertung von Web-Agenten
Die Bewertung von KI-Agenten, die in komplexen, realen Umgebungen agieren, muss zuverlässig, transparent und auf die jeweiligen Aufgaben abgestimmt sein. In einer aktuellen Analyse wurden die Schwächen bestehender Verfa…