Neues Benchmark JFTA-Bench bewertet LLMs bei Fehleranalyse mit Fehlerbäumen
Ein kürzlich auf arXiv veröffentlichtes Papier (ID 2603.22978v1) stellt ein brandneues Benchmark vor, das die Fähigkeit großer Sprachmodelle (LLMs) testet, Fehler in komplexen Systemen zu verfolgen und zu analysieren. D…