Accenture Research Introduce MCP-Bench: A Large-Scale Benchmark that Evaluates LLM Agents in Complex Real-World Tasks via MCP Servers
Anzeige
Ähnliche Artikel
arXiv – cs.AI
•
DeepPlanning: Benchmark für Agentenplanung mit überprüfbaren Grenzen
MarkTechPost
•
Anthropic AI Releases Petri: An Open-Source Framework for Automated Auditing by Using AI Agents to Test the Behaviors of Target Models on Diverse Scenarios
arXiv – cs.AI
•
Mehr aus Weniger lernen: REPCORE nutzt interne Zustände zur Benchmark-Kompression
arXiv – cs.AI
•
Neues Benchmark deckt Schwächen großer Sprachmodelle im Mathematik‑Denken auf
arXiv – cs.AI
•
AI-Agenten im Versicherungs-Underwriting: Neuer Benchmark UNDERWRITE
arXiv – cs.AI
•
Neuer Benchmark Mem2ActBench prüft Langzeitgedächtnis bei KI-Agenten