MobText‑SISA: Unlearning für Mobilitätsdaten mit Ort‑Zeit‑ und Sprachdaten

arXiv – cs.LG Original ≈2 Min. Lesezeit
Anzeige

Ein brandneues Framework namens MobText‑SISA wurde vorgestellt, das das Problem des „Machine Unlearning“ für Mobilitätsdaten löst. Moderne Plattformen speichern enorme Mengen an GPS‑Trajektorien, Zeitstempeln, freien Textnotizen und anderen unstrukturierten Informationen. Die Datenschutzgesetze, insbesondere die DSGVO, verlangen, dass individuelle Beiträge auf Wunsch vollständig aus den Modellen entfernt werden. Ein vollständiges Neutrainieren aller Modelle bei jedem Löschantrag ist jedoch praktisch unmöglich.

MobText‑SISA erweitert das bewährte SISA‑Modell (Sharded, Isolated, Sliced, Aggregated) auf heterogene orts‑ und zeitbezogene Daten. Zunächst werden die numerischen und sprachlichen Merkmale jeder Fahrt in einen gemeinsamen latenten Raum eingebettet. Anschließend sorgt ein similarity‑aware‑Clustering dafür, dass ähnliche Samples in denselben Shard gelangen, während die Shards insgesamt vielfältig bleiben. Jeder Shard wird inkrementell trainiert; bei der Vorhersage werden die Ergebnisse der einzelnen Shards zu einer Gesamtausgabe zusammengeführt.

Wenn ein Löschantrag eingeht, wird lediglich der betroffene Shard von seinem letzten gültigen Checkpoint neu trainiert. Dadurch wird garantiert, dass die angeforderten Daten exakt aus dem Modell entfernt werden, ohne die Leistung der übrigen Shards zu beeinträchtigen. Das Verfahren bietet somit eine exakte und effiziente Lösung für das Unlearning‑Problem.

In Experimenten mit einem zehnmonatigen, realen Mobilitätsdatensatz zeigte MobText‑SISA, dass die Vorhersagegenauigkeit erhalten bleibt und die Methode im Vergleich zu zufälliger Sharding‑Verteilung sowohl die Fehlerquote als auch die Konvergenzgeschwindigkeit deutlich verbessert. Diese Ergebnisse demonstrieren, dass MobText‑SISA eine praktikable Grundlage für datenschutzkonforme Analysen multimodaler Mobilitätsdaten in städtischen Maßstäben darstellt.

Ähnliche Artikel