Neue Studie untersucht Memorierungsrisiken in Gesundheits-Foundation-Modellen
Eine neue Untersuchung auf arXiv beleuchtet die Gefahr, dass große, auf anonymisierten elektronischen Gesundheitsakten (EHR) basierende Foundation‑Modelle sensible Patientendaten auswendig lernen. Die Autoren stellen ein Set von Black‑Box‑Tests vor, mit denen die Memorierung sowohl auf Embedding‑ als auch auf Generierungs‑Ebene gemessen werden kann. Ziel ist es, echte Generalisierung von schädlicher Memorierung zu unterscheiden und die Auswirkungen auf besonders schutzbedürftige Patientengruppen zu verdeutlichen.
Die Methodik wurde an einem öffentlich verfügbaren EHR‑Foundation‑Modell getestet und die Ergebnisse zeigen, dass die Tests zuverlässig potenzielle Datenschutzverletzungen aufdecken. Zusätzlich wird ein Open‑Source‑Toolkit veröffentlicht, das Forschern und Entwicklern ermöglicht, die Privatsphäre von Gesundheits‑AI‑Systemen reproduzierbar und kollaborativ zu prüfen.