Forschung
LiveClawBench: Neue Benchmark für LLM-Agenten in komplexen Assistenzaufgaben
Mit der wachsenden Verbreitung von LLM‑basierten Agenten in realen Assistenzaufgaben stellt sich die Frage, wie gut diese Systeme unter den…
arXiv – cs.AI