Forschung
Neue Messkriterien für Zuverlässigkeit langer LLM-Agenten
Aktuelle Benchmarks bewerten vor allem die Fähigkeit eines Modells, bei einer einzigen Ausführung erfolgreich zu sein. In produktiven Umgeb…
arXiv – cs.AI