HugAgent: Evaluating LLMs in Simulating Human-Like Individual Reasoning on Open-Ended Tasks
Anzeige
Ähnliche Artikel
arXiv – cs.AI
•
Neues Benchmark prüft Rationalität großer Sprachmodelle
Analytics Vidhya
•
Another BIG AI from China! LongCat-Flash Chat 560B
arXiv – cs.AI
•
Mehr aus Weniger lernen: REPCORE nutzt interne Zustände zur Benchmark-Kompression
arXiv – cs.AI
•
OpenGuanDan: Benchmark für komplexe Kartenstrategien mit unvollständiger Info
arXiv – cs.AI
•
Neues Benchmark deckt Schwächen großer Sprachmodelle im Mathematik‑Denken auf
arXiv – cs.AI
•
KI-Framework für kollaboratives Lernen: Adaptive LLMs mit Feedback-Mechanismen