Semantic F1 Scores: Gerechtere Bewertung bei unscharfen Klassengrenzen
Eine neue Studie aus dem arXiv-Repository (Arbeitstitel: Semantic F1 Scores) stellt ein innovatives Bewertungssystem für subjektive oder mehrdeutige Mehrlabels-Klassifikationen vor. Im Gegensatz zu herkömmlichen F1-Maßen, die semantisch verwandte Vorhersagen als komplette Fehler behandeln, berücksichtigt das neue Verfahren eine Ähnlichkeitsmatrix der Labels. Dadurch entstehen weiche Präzisions- und Rückrufwerte, aus denen die Semantic F1 Scores berechnet werden.
Der Ansatz nutzt eine zweistufige Präzisions‑/Rückruf‑Formulierung, die es ermöglicht, Label‑Sätze beliebiger Größe zu vergleichen, ohne Labels zu verwerfen oder unpassende Übereinstimmungen zu erzwingen. Durch die Vergabe von Teilwerten für semantisch verwandte, aber nicht identische Labels spiegelt die Metrik besser die Realität von Bereichen wider, in denen menschliche Meinungsverschiedenheiten oder unscharfe Kategoriezonen vorherrschen.
Die Autoren zeigen theoretisch und empirisch, dass Semantic F1 Scores eine höhere Interpretierbarkeit und ökologische Validität bieten. Da die Methode lediglich eine domänenangepasste Ähnlichkeitsmatrix benötigt – die robust gegenüber Missangaben ist – lässt sie sich auf verschiedene Aufgaben und Modalitäten anwenden, ohne an ein starres Ontologie‑Schema gebunden zu sein.