Accenture Research Introduce MCP-Bench: A Large-Scale Benchmark that Evaluates LLM Agents in Complex Real-World Tasks via MCP Servers
Anzeige
Ähnliche Artikel
MarkTechPost
•
Anthropic AI Releases Petri: An Open-Source Framework for Automated Auditing by Using AI Agents to Test the Behaviors of Target Models on Diverse Scenarios
VentureBeat – AI
•
Terminal‑Bench 2.0 und Harbor: Neuer Standard für KI-Agenten in Containern
arXiv – cs.AI
•
Neue Studie deckt stille Fehler in Multi-Agenten‑AI auf
arXiv – cs.AI
•
QiMeng-NeuComBack: Self-Evolving Translation from IR to Assembly Code
arXiv – cs.AI
•
LLM-Tester CLAUSE: Benchmark zur Erkennung von Vertragsfehlern
arXiv – cs.LG
•
AI Agents in Drug Discovery