Instruction-Following Evaluation in Function Calling for Large Language Models
Anzeige
Ähnliche Artikel
arXiv – cs.AI
•
AI-Agenten im Versicherungs-Underwriting: Neuer Benchmark UNDERWRITE
arXiv – cs.AI
•
LLMs meistern Mathe‑Benchmarks, aber im Kontext bleiben sie hinterher
arXiv – cs.AI
•
DeepPlanning: Benchmark für Agentenplanung mit überprüfbaren Grenzen
arXiv – cs.AI
•
Neue Studie beleuchtet Schlüsselkompetenzen für Langzeit-Agenten
arXiv – cs.LG
•
R$^2$PO trennt Trainingspfade von Inferenzantworten und steigert LLM-Logik
arXiv – cs.AI
•
SafePro: Benchmark prüft Sicherheit professioneller KI-Agenten