KI News: Kurz und klar.

Anmelden

Instruction-Following Evaluation in Function Calling for Large Language Models

arXiv – cs.AI • 24.09.2025 05:00 • Original

#Funktionsaufruf #große Sprachmodelle #KI-Agenten #Benchmark #JSON-Schema #Format-Anweisungen #Evaluierung

Anzeige

Ähnliche Artikel

arXiv – cs.AI • 03.02.2026 05:00

AI-Agenten im Versicherungs-Underwriting: Neuer Benchmark UNDERWRITE

arXiv – cs.AI • 02.02.2026 05:00

LLMs meistern Mathe‑Benchmarks, aber im Kontext bleiben sie hinterher

arXiv – cs.AI • 27.01.2026 05:00

DeepPlanning: Benchmark für Agentenplanung mit überprüfbaren Grenzen

arXiv – cs.AI • 26.01.2026 05:00

Neue Studie beleuchtet Schlüsselkompetenzen für Langzeit-Agenten

arXiv – cs.LG • 21.01.2026 05:00

R$^2$PO trennt Trainingspfade von Inferenzantworten und steigert LLM-Logik

arXiv – cs.AI • 13.01.2026 05:00

SafePro: Benchmark prüft Sicherheit professioneller KI-Agenten