KI News: Kurz und klar.

Anmelden

Psychiatry-Bench: A Multi-Task Benchmark for LLMs in Psychiatry

arXiv – cs.AI • 15.09.2025 05:00 • Original

#Psychiatrie #große Sprachmodelle #Benchmark #Diagnostik #Behandlungsplanung #klinische Dokumentation #Evaluation #Expert-annotierte Items

Anzeige

Ähnliche Artikel

arXiv – cs.AI • 02.02.2026 05:00

LLMs meistern Mathe‑Benchmarks, aber im Kontext bleiben sie hinterher

arXiv – cs.LG • 21.01.2026 05:00

R$^2$PO trennt Trainingspfade von Inferenzantworten und steigert LLM-Logik

arXiv – cs.AI • 09.01.2026 05:00

GUITester: Automatisierte GUI‑Tests mit KI – neue Benchmark und Framework

arXiv – cs.AI • 27.11.2025 05:00

A^2Flow: Automatisierte Agenten-Workflow-Generierung mit adaptiven Operatoren

arXiv – cs.AI • 14.11.2025 05:00

SPAN: Benchmark für interkalenderische Zeitlogik von LLMs

arXiv – cs.AI • 12.11.2025 05:00

ResearchRubrics: Benchmark für Deep Research Agents mit 2.800 Stunden Arbeit