Do LLM Agents Know How to Ground, Recover, and Assess? A Benchmark for Epistemic Competence in Information-Seeking Agents
Anzeige
Ähnliche Artikel
arXiv – cs.AI
•
LLMs im Pokerspiel: Noch weit von Profis entfernt – ToolPoker setzt neue Maßstäbe
arXiv – cs.AI
•
Weltmodelle als Brücke: Agenten meistern kostenintensive Aufgaben
arXiv – cs.AI
•
AutoTraj: Automatisches Lernen von Tool‑Use‑Pfaden für KI‑Reasoning
arXiv – cs.AI
•
Planner-Auditor: Selbstverbessernder LLM-Planer reduziert Fehler bei Entlassungsplanung
arXiv – cs.LG
•
Weniger Lärm, mehr Stimme: RLVR verbessert LLM-Logik durch Prompt‑Purification
arXiv – cs.AI
•
Intuition zu Expertise: Rubrikbasierte Kalibrierung zur Erkennung LLM-Koreanisch