ASCENDgpt revolutioniert Herz‑Kreislauf‑Risikoanalyse aus EHRs

arXiv – cs.AI Original ≈1 Min. Lesezeit
Anzeige

Ein neues Transformer‑Modell namens ASCENDgpt wurde entwickelt, um das Risiko von Herz‑ und Kreislauf‑Erkrankungen anhand von Langzeit‑Elektronischen Gesundheitsakten (EHRs) vorherzusagen. Das System nutzt eine speziell auf die medizinische Domäne zugeschnittene Tokenisierung, die 47.155 rohe ICD‑Codes auf 176 klinisch sinnvolle Phänotyp‑Tokens reduziert.

Durch diese Phänotyp‑basierte Tokenisierung werden 99,6 % der Diagnosecodes konsolidiert, während die semantische Information erhalten bleibt. Das resultierende Vokabular umfasst 10.442 Tokens – ein Rückgang von 77,9 % im Vergleich zur direkten Verwendung roher ICD‑Codes.

ASCENDgpt wurde zunächst mit 19.402 einzigartigen Patientenprofilen mittels Masked‑Language‑Modeling vortrainiert und anschließend für die Zeit‑bis‑Ereignis‑Vorhersage von fünf kardiovaskulären Outcomes optimiert: Myokardinfarkt (MI), Schlaganfall, schwere kardiovaskuläre Ereignisse (MACE), kardiovaskulärer Tod und Gesamtsterblichkeit.

Im Testdatensatz erzielte das Modell einen durchschnittlichen C‑Index von 0,816, mit Einzelwerten von 0,792 für MI, 0,824 für Schlaganfall, 0,800 für MACE, 0,842 für kardiovaskulären Tod und 0,824 für Gesamtsterblichkeit. Diese Zahlen zeigen eine starke Trennschärfe über alle untersuchten Ereignisse hinweg.

Die phänotypbasierte Herangehensweise ermöglicht nicht nur klinisch interpretierbare Vorhersagen, sondern hält auch die Rechenkomplexität niedrig. Die Arbeit demonstriert, wie domänenspezifische Tokenisierung und gezieltes Pretraining die Leistungsfähigkeit von EHR‑basierten Risiko‑Modellen deutlich steigern können.

Ähnliche Artikel