Chunked Data Shapley: Skalierbare Qualitätsbewertung großer Datensätze

arXiv – cs.LG Original ≈1 Min. Lesezeit
Anzeige

Mit dem stetig wachsenden Volumen und der Vielfalt an verfügbaren Datensätzen wird die Bewertung ihrer Qualität immer wichtiger, um zuverlässige und effiziente Machine‑Learning‑Analysen zu gewährleisten. Ein moderner, spieltheoretischer Ansatz zur Qualitätsmessung ist das Konzept des Data Shapley, das den Wert einzelner Datenpunkte innerhalb eines Datensatzes quantifiziert.

Die bisher führenden Methoden zur Skalierung der NP‑schweren Shapley‑Berechnung stoßen bei großen Datensätzen an ihre Grenzen, was ihre praktische Anwendbarkeit einschränkt. In der vorliegenden Arbeit wird ein neuer Ansatz namens Chunked Data Shapley (C‑DaSh) vorgestellt, der das Dataset in handhabbare Stücke aufteilt und die Beitragsschätzung jedes Chunks mithilfe einer optimierten Teilmengeauswahl und eines ein‑Durchlauf‑stochastischen Gradientenabstiegs durchführt.

Durch diese Aufteilung wird die Rechenzeit drastisch reduziert, während die Qualität der Ergebnisse weitgehend erhalten bleibt. In umfangreichen Benchmarks mit realen Klassifikations‑ und Regressionsaufgaben konnte gezeigt werden, dass C‑DaSh die bestehenden Shapley‑Approximationen sowohl in der Rechenleistung (Geschwindigkeitssteigerungen von 80‑ bis 2300‑fach) als auch in der Genauigkeit bei der Erkennung von Qualitätslücken deutlich übertrifft.

Damit ermöglicht C‑DaSh die praktische Messung der Datensatzqualität bei großen tabellarischen Daten und unterstützt sowohl Klassifikations‑ als auch Regressions‑Pipelines, was einen wichtigen Schritt zur verlässlicheren Nutzung großer Datenmengen im Machine Learning darstellt.

Ähnliche Artikel