RoBERTa dominiert: 38 Modelle zur Hassrede‑Erkennung getestet

arXiv – cs.AI Original ≈1 Min. Lesezeit
Anzeige

Eine neue Studie aus dem arXiv-Repository hat 38 verschiedene Modelle zur Erkennung von Hassrede auf Social‑Media-Plattformen systematisch verglichen. Dabei wurden sowohl klassische Machine‑Learning‑Ansätze wie SVM und CatBoost als auch moderne Deep‑Learning‑Architekturen – darunter BERT, RoBERTa, Distil‑BERT, CNN, LSTM, GRU und Hierarchical Attention Networks – auf Datensätzen mit 6.5 T bis 451 K Beispielen getestet.

Die Ergebnisse zeigen, dass Transformer‑Modelle, insbesondere RoBERTa, mit einer Genauigkeit und F1‑Score von über 90 % die besten Leistungen erbringen. Unter den Deep‑Learning‑Methoden schneiden Hierarchical Attention Networks besonders gut ab, während klassische Algorithmen wie CatBoost und SVM ebenfalls konkurrenzfähig bleiben und F1‑Scores von mehr als 88 % erzielen – jedoch mit deutlich geringeren Rechenaufwänden.

Ein weiterer wichtiger Befund ist die Rolle der Datensatzmerkmale: Gleichgewichtige, mittelgroße, unbearbeitete Datensätze liefern oft bessere Ergebnisse als größere, stark vorverarbeitete Sammlungen. Diese Erkenntnisse liefern wertvolle Hinweise für die Entwicklung effizienter und effektiver Systeme zur automatischen Erkennung von Hassrede.

Ähnliche Artikel