Vergleich von Dysfluency-Erkennungsmodellen: Leistung, Kontrolle und Erklärbarkeit im Fokus

arXiv – cs.AI Original ≈1 Min. Lesezeit
Anzeige

Eine neue Analyse, veröffentlicht auf arXiv (2509.00058v1), untersucht vier führende Ansätze zur Erkennung von Sprachstörungen: YOLO-Stutter, FluentNet, UDM und SSDM. Ziel war es, die Modelle nicht nur nach Genauigkeit, sondern auch nach ihrer Steuerbarkeit und Erklärbarkeit zu bewerten – entscheidende Faktoren für die klinische Anwendung.

YOLO-Stutter und FluentNet setzen auf leichtgewichtige, objektbasiert inspirierte Architekturen, die besonders schnell und ressourcenschonend arbeiten. UDM dagegen verfolgt ein modular aufgebautes, interpretierbares Design, das die Ergebnisse für Fachkräfte nachvollziehbar macht. SSDM, ein neuartiges Konzept, zeigte zunächst vielversprechende Ergebnisse, konnte jedoch in den Replikationsversuchen nicht vollständig reproduziert werden.

Die Studie ergab, dass YOLO-Stutter und FluentNet zwar hohe Effizienz bieten, jedoch in Bezug auf Transparenz und Nachvollziehbarkeit eingeschränkt sind. UDM erreicht das beste Gleichgewicht zwischen Genauigkeit und klinischer Interpretierbarkeit, während SSDM trotz Potenzial noch weitere Validierung benötigt. Zusätzlich wurden praxisnahe Implementierungsdetails und Deployment‑Tipps für jedes Modell vorgestellt.

Diese Erkenntnisse unterstreichen die Notwendigkeit, bei der Entwicklung von Dysfluency‑Erkennungssystemen nicht nur auf reine Leistungszahlen zu setzen, sondern auch auf die Kontrolle und Erklärbarkeit zu achten. Für die Zukunft wird empfohlen, die Reproduzierbarkeit von Modellen wie SSDM zu verbessern und die Transparenz von YOLO‑basierten Ansätzen zu erhöhen, um die Akzeptanz in medizinischen Umgebungen zu steigern.

Ähnliche Artikel