Forschung
Neuer Benchmark Emergence WebVoyager verbessert Bewertung von Web-Agenten
Die Bewertung von KI-Agenten, die in komplexen, realen Umgebungen agieren, muss zuverlässig, transparent und auf die jeweiligen Aufgaben ab…
arXiv – cs.AI