KI News: Kurz und klar.

Anmelden

OutboundEval: A Dual-Dimensional Benchmark for Expert-Level Intelligent Outbound Evaluation of Xbench's Professional-Aligned Series

arXiv – cs.AI • 27.10.2025 04:00 • Original

#OutboundEval #Benchmark #LLM #Outbound-Anruf #Benutzersimulation #Dynamische Bewertung #Human-in-the-Loop

Anzeige

Ähnliche Artikel

arXiv – cs.AI • 03.02.2026 05:00

Neues Benchmark deckt Schwächen großer Sprachmodelle im Mathematik‑Denken auf

arXiv – cs.AI • 03.02.2026 05:00

Mehr aus Weniger lernen: REPCORE nutzt interne Zustände zur Benchmark-Kompression

arXiv – cs.AI • 30.01.2026 05:00

DataCross: Benchmark & Agenten-Framework für heterogene Datenanalyse

arXiv – cs.AI • 29.01.2026 05:00

AMA: Adaptive Memory durch Multi-Agenten-Kollaboration

arXiv – cs.AI • 27.01.2026 05:00

DeepPlanning: Benchmark für Agentenplanung mit überprüfbaren Grenzen

arXiv – cs.LG • 27.01.2026 05:00

ThinkTank-ME: Mehrfach-Experten-Framework für Ereignisprognosen im Nahen Osten