KI News: Kurz und klar.

Anmelden

UltraHorizon: Benchmarking Agent Capabilities in Ultra Long-Horizon Scenarios

arXiv – cs.AI • 29.09.2025 05:00 • Original

#autonome Agenten #UltraHorizon #Benchmark #Langzeitaufgaben #partielle Beobachtbarkeit #Planung #Werkzeugnutzung

Anzeige

Ähnliche Artikel

arXiv – cs.AI • 29.10.2025 04:00

APTBench: Benchmarking Agentic Potential of Base LLMs During Pre-Training

arXiv – cs.AI • 29.10.2025 04:00

FunReason-MT Technical Report: Overcoming the Complexity Barrier in Multi-Turn Function Calling

arXiv – cs.AI • 01.10.2025 05:00

Memory Management and Contextual Consistency for Long-Running Low-Code Agents

MarkTechPost • 28.09.2025 09:29

Gemini Robotics 1.5: DeepMind’s ER↔VLA Stack Brings Agentic Robots to the Real World

arXiv – cs.AI • 19.08.2025 05:00

Neues MARL‑Benchmark CAMAR: Kontinuierliche Aktionen für Multi‑Agenten‑Routing

arXiv – cs.AI • 03.02.2026 05:00

AI-Agenten im Versicherungs-Underwriting: Neuer Benchmark UNDERWRITE