KI-Scoring für Protein‑Liganden: Studie testet Generalisierung auf neue Ziele
Mit dem rasanten Aufstieg von maschinellem Lernen im Molekulendesign wird die Zuverlässigkeit lernbarer Protein‑Ligand‑Scoring‑Funktionen für bislang unbekannte Proteinziele immer wichtiger. Viele Modelle schneiden zwar bei Standard‑Benchmarks gut ab, doch ihre Fähigkeit, über das Trainingsmaterial hinaus zu generalisieren, bleibt ein zentrales Problem.
In der vorliegenden Arbeit wird die Generalisierungsfähigkeit modernster Scoring‑Funktionen anhand von Datensatz‑Aufteilungen untersucht, die die Bewertung an Zielen mit wenigen bekannten Strukturen und experimentellen Affinitätsmessungen simulieren. Die Analyse zeigt, dass gängige Benchmarks die echte Herausforderung der Generalisierung auf neue Ziele nicht widerspiegeln.
Darüber hinaus wird erforscht, ob groß angelegtes, selbstüberwachtes Pre‑Training die Lücke schließen kann. Erste Ergebnisse deuten darauf hin, dass ein solches Pre‑Training das Potenzial hat, die Leistung zu verbessern. Zusätzlich werden einfache Methoden untersucht, die begrenzte Test‑Ziel‑Daten nutzen, um die Genauigkeit der Scoring‑Funktionen zu steigern.
Die Ergebnisse unterstreichen die Notwendigkeit rigoroserer Evaluationsprotokolle und liefern praktische Hinweise für die Entwicklung von Scoring‑Funktionen, die über bekannte Daten hinaus Vorhersagekraft besitzen.