Radiology's Last Exam (RadLE): Benchmarking Frontier Multimodal AI Against Human Experts and a Taxonomy of Visual Reasoning Errors in Radiology
Anzeige
Ähnliche Artikel
arXiv – cs.AI
•
LLMs meistern Mathe‑Benchmarks, aber im Kontext bleiben sie hinterher
arXiv – cs.LG
•
R$^2$PO trennt Trainingspfade von Inferenzantworten und steigert LLM-Logik
arXiv – cs.AI
•
GUITester: Automatisierte GUI‑Tests mit KI – neue Benchmark und Framework
arXiv – cs.AI
•
Radiologist Copilot: KI-Assistent für präzises Radiologie-Reporting
arXiv – cs.AI
•
A^2Flow: Automatisierte Agenten-Workflow-Generierung mit adaptiven Operatoren
arXiv – cs.AI
•
SPAN: Benchmark für interkalenderische Zeitlogik von LLMs