Neue Benchmark zeigt Schwächen von Open-Weight-LLMs beim mathematischen Denken
Eine aktuelle Studie aus dem arXiv-Repository präsentiert einen robusten Reasoning Benchmark, der die Leistungsfähigkeit von Large Language Models (LLMs) im mathematischen Denken unter realistischen Bedingungen prüft. D…