APTBench: Benchmarking Agentic Potential of Base LLMs During Pre-Training
Anzeige
Ähnliche Artikel
arXiv – cs.AI
•
Neues Benchmark deckt Schwächen großer Sprachmodelle im Mathematik‑Denken auf
arXiv – cs.AI
•
Mehr aus Weniger lernen: REPCORE nutzt interne Zustände zur Benchmark-Kompression
arXiv – cs.AI
•
Agentische Evolution: Der Schlüssel zur Weiterentwicklung von LLMs
arXiv – cs.AI
•
PerfGuard: Agent für visuelle Inhalte, der Tool-Performance berücksichtigt
arXiv – cs.AI
•
<p>LLM-Agenten zeigen beeindruckende Schritt-für-Schritt‑Logik bei kurzen Aufgaben, doch sobald die Planung mehrere Schritte vorausgehen muss, geraten sie in eine myope Haltung. In einer neuen Analyse wird erklärt, warum diese „greedy“ Vorgehensweise bei langen Entscheidungswegen versagt: Jede Aktion wird nur im Blick des nächsten Schritts bewertet, ohne die verzögerten Konsequenzen zu berücksichtigen.</p>
arXiv – cs.AI
•
AMA: Adaptive Memory durch Multi-Agenten-Kollaboration