Benchmark‑Gap bei Gesundheits‑LLMs: Analyse zeigt fehlende klinische Relevanz
Eine neue Analyse aus dem arXiv‑Repository hat einen gravierenden „Validity Gap“ in den gängigen Benchmarks für medizinische Sprachmodelle aufgedeckt. Die Untersuchung bezieht sich auf 18.707 Konsumenten‑Health‑Anfragen…