Neuer Ansatz DDFI verbessert Feature‑Imputation in Graph Neural Networks
In vielen realen Anwendungen fehlen bei Knoten in Graphen wichtige Attribute – etwa bei Web‑Benutzern, deren Daten teilweise privat sind. Diese Lücken führen dazu, dass Graph Neural Networks (GNNs) deutlich schlechtere Ergebnisse liefern.
Die gängige Methode Feature Propagation (FP) kann fehlende Knotenmerkmale teilweise rekonstruieren, stößt jedoch an drei Grenzen: Sie funktioniert schlecht bei nicht vollständig verbundenen Graphen, führt zu übermäßiger Glättung der Features und ist primär für transductive Aufgaben ausgelegt, wodurch sie die Verteilungsschwankungen bei inductiven Szenarien ignoriert.
Um diese Probleme zu lösen, präsentiert die neue Arbeit DDFI – Diverse and Distribution‑aware Missing Feature Imputation. DDFI kombiniert FP mit einem graphbasierten Masked AutoEncoder (MAE) und nutzt dabei einen cleveren Ansatz, um die Vielfalt und Verteilung der rekonstruierten Features zu verbessern.
Ein Kernstück von DDFI ist die Co‑Label Linking (CLL)-Strategie, die zufällig Knoten mit demselben Label im Trainingssatz verbindet. Dadurch wird die Leistung bei Graphen mit vielen getrennten Komponenten deutlich gesteigert.
Im Inferenzschritt folgt DDFI einem zweistufigen Prozess: Anstatt die FP‑imputierten Features direkt zu verwenden, werden diese zunächst durch den gesamten MAE rekonstruiert. Dieser Schritt reduziert die Verteilungsschwankungen bei inductiven Aufgaben und erhöht die Vielfalt der Knotenmerkmale.
Da bisherige Imputationsmethoden meist nur simulierte Lücken durch manuelles Maskieren erzeugen, hat die Studie zudem einen neuen Datensatz erstellt, um die Wirksamkeit von DDFI unter realistischen Bedingungen zu testen. Die Ergebnisse zeigen, dass DDFI die Leistung von GNNs in einer Vielzahl von Szenarien signifikant steigert.