Neues KI-Framework gruppiert 43 Krebsarten nach Mutationsmustern
Die Analyse des pan‑krebserregenden Mutationslandschafts liefert entscheidende Einblicke in die molekularen Mechanismen der Tumorentstehung. Während patientenbezogene Machine‑Learning‑Ansätze zur Identifikation von Tumor‑Subtypen weit verbreitet sind, erfolgt die Gruppierung ganzer Krebsarten bislang meist über klassische statistische Verfahren.
In dieser Studie wird ein neuartiges, unüberwachtes kontrastives Lernframework vorgestellt, das 43 Krebsarten anhand von Kodierungs‑Mutationsdaten aus der COSMIC‑Datenbank clustert. Für jede Krebsart werden zwei ergänzende Mutationssignaturen erstellt: ein Gen‑Level‑Profil, das die Nukleotid‑Substitutionsmuster der am häufigsten mutierten Gene erfasst, und ein Chromosomen‑Level‑Profil, das die normalisierten Substitutionsfrequenzen über die Chromosomen hinweg darstellt.
Die beiden Ansichten werden mit TabNet‑Encodern kodiert und mittels eines multi‑Skalen‑kontrastiven Lernziels (NT‑Xent‑Loss) optimiert, um ein einheitliches Embedding der Krebsarten zu erlernen. Die resultierenden latenten Repräsentationen bilden biologisch sinnvolle Cluster, die mit bekannten Mutationsprozessen und Gewebeursprüngen übereinstimmen. Damit demonstriert die Arbeit die erste Anwendung von kontrastivem Lernen für die kohorten‑basierten Krebs‑Clusterung und bietet einen skalierbaren sowie interpretierbaren Ansatz für mutations‑getriebene Krebs‑Subtypenbildung.