Text‑Rationalisierung verbessert robuste kausale Effekte

arXiv – cs.LG Original ≈1 Min. Lesezeit
Anzeige

Durch die jüngsten Fortschritte im Bereich der natürlichen Sprachverarbeitung wird Text zunehmend als wertvolle Quelle für die Kausalitätsanalyse genutzt. Insbesondere kann Text dabei helfen, versteckte Störfaktoren zu identifizieren und die Schätzung von Behandlungseffekten zu verbessern.

Hohe Dimensionalität von Textdaten bringt jedoch besondere Herausforderungen mit sich. Die Positivitätsannahme, die eine ausreichende Überlappung der Behandlungsgruppen über alle Werte der Störfaktoren verlangt, wird häufig verletzt, wenn Text in große Merkmalsräume projiziert wird. Überflüssige oder irreführende Textmerkmale erhöhen die Dimensionalität, führen zu extremen Propensity‑Scores, instabilen Gewichtungen und damit zu stark variierenden Effekt­schätzungen.

Um diesen Problemen entgegenzuwirken, wurde das Framework Confounding‑Aware Token Rationalization (CATR) entwickelt. CATR wählt gezielt ein sparsames, notwendiges Teilset von Tokens aus, indem ein Residual‑Unabhängigkeitsdiagnose‑Ansatz verwendet wird, der die für die Unconfoundedness relevanten Informationen bewahrt. Durch das Entfernen irrelevanter Textteile und das Beibehalten der entscheidenden Signale reduziert CATR die Positivitätsverletzungen auf Beobachtungsebene und stabilisiert die nachfolgenden kausalen Effekt­schätzer.

Experimentelle Studien – sowohl auf synthetischen Datensätzen als auch auf einer realen Analyse der MIMIC‑III‑Datenbank – zeigen, dass CATR zu präziseren, stabileren und interpretierbareren Schätzungen kausaler Effekte führt als bestehende Baselines.

Ähnliche Artikel