MatSciBench: Benchmarking the Reasoning Ability of Large Language Models in Materials Science
Anzeige
Ähnliche Artikel
arXiv – cs.LG
•
SCALAR-Benchmark prüft Halluzinationen und Konsistenz in Material-ML-Modellen
arXiv – cs.AI
•
ThinkSafe: Selbstgenerierte Sicherheitsausrichtung für große Rechenmodelle
arXiv – cs.AI
•
PolyBench: KI-Benchmark für Polymerdesign – Kleine Modelle schlagen Giganten
arXiv – cs.LG
•
Text2Graph: LLMs & GNNs für effiziente Textklassifizierung bei knappen Labels
arXiv – cs.AI
•
Neue Studie automatisiert WebShell‑Familienklassifizierung mit KI‑gestützten Traces
arXiv – cs.AI
•
Pessimistische Verifikation steigert Genauigkeit bei offenen Matheaufgaben