Forschung
<h1>LLMs lösen Logik korrekt, liefern aber falsche Antworten – neue Benchmark enthüllt</h1> <p>Eine neue Studie zeigt, dass große Sprachmodelle (LLMs) jeden Schritt ihrer „Chain‑of‑Thought“-Logik fehlerfrei ausführen können, dabei aber häufig falsche Endergebnisse liefern. Das Problem wurde mit dem „Novel Operator Test“ aufgedeckt, einem Benchmark, der die reine Logik eines Operators von dessen Namen trennt und so echte Denkprozesse von bloßem Mustererkennen unterscheidet.</p> <p>Der Test bewertet Boolesche
arXiv – cs.AI