Demografische Basismodelle verbessern Krankheitsvorhersagen weltweit

arXiv – cs.LG Original ≈1 Min. Lesezeit
Anzeige

In elektronischen Gesundheitsakten sind demografische Merkmale wie Alter und Geschlecht allgegenwärtig und liefern entscheidende Hinweise für die Risikostratifikation und Therapieentscheidungen. Trotz ihrer Bedeutung werden sie in der Modellentwicklung häufig nur als Nebenfaktoren behandelt, während ihre Repräsentationen kaum ausgebildet werden.

Die neue Studie präsentiert das General Demographic Pre‑trained (GDP) Modell, ein Grundlagensystem, das speziell für Alter und Geschlecht entwickelt wurde. Durch Vortraining auf Datensätzen aus unterschiedlichen Krankheiten und Bevölkerungsgruppen weltweit wird die Fähigkeit des Modells getestet, generelle Muster zu erfassen.

Das GDP‑Design kombiniert verschiedene Reihenfolgenstrategien und Kodierungsmethoden, um tabellarische demografische Eingaben in latente Einbettungen zu überführen. Die Experimente zeigen, dass eine sequenzielle Anordnung die Leistung in Bezug auf Trennschärfe, Kalibrierung und Informationsgewinn bei jedem Split eines Entscheidungsbaums deutlich steigert – besonders bei Erkrankungen, bei denen Alter und Geschlecht stark zur Risikobewertung beitragen.

Selbst in Datensätzen, in denen demografische Attribute nur einen geringen Vorhersagewert besitzen, erhöht GDP die Repräsentationskraft dieser Merkmale und verstärkt ihren Einfluss in nachgelagerten Gradient‑Boosting‑Modellen. Die Ergebnisse deuten darauf hin, dass tabellarische Basismodelle für demografische Daten über Aufgaben und Populationen hinweg generalisieren können und damit einen vielversprechenden Ansatz zur Verbesserung der Vorhersageleistung im Gesundheitswesen darstellen.

Ähnliche Artikel