KI News: Kurz und klar.

Anmelden

MatSciBench: Benchmarking the Reasoning Ability of Large Language Models in Materials Science

arXiv – cs.AI • 15.10.2025 05:00 • Original

#MatSciBench #Large Language Models #Materials Science #Benchmark #Multimodal Reasoning #Gemini-2.5-Pro #Chain-of-Thought

Anzeige

Ähnliche Artikel

arXiv – cs.AI • 02.02.2026 05:00

ThinkSafe: Selbstgenerierte Sicherheitsausrichtung für große Rechenmodelle

arXiv – cs.LG • 02.02.2026 05:00

SCALAR-Benchmark prüft Halluzinationen und Konsistenz in Material-ML-Modellen

arXiv – cs.AI • 26.01.2026 05:00

PolyBench: KI-Benchmark für Polymerdesign – Kleine Modelle schlagen Giganten

arXiv – cs.LG • 12.12.2025 05:00

Text2Graph: LLMs & GNNs für effiziente Textklassifizierung bei knappen Labels

arXiv – cs.AI • 08.12.2025 05:00

Neue Studie automatisiert WebShell‑Familienklassifizierung mit KI‑gestützten Traces

arXiv – cs.AI • 27.11.2025 05:00

Pessimistische Verifikation steigert Genauigkeit bei offenen Matheaufgaben