Neue Dual-Path-Architektur steigert Spracherkennungsgenauigkeit um 30 %
In einem bahnbrechenden Beitrag zur Spracherkennung präsentiert ein Forschungsteam eine Serial-Parallel Dual-Path-Architektur, die die Genauigkeit der Speaking Style Recognition (SSR) deutlich verbessert. Durch die Kombination von akustischen und linguistischen Signalen in einem neuartigen Modell wird die bisherige Abhängigkeit von rein sprachlichen Merkmalen überwunden.
Die Architektur nutzt zwei parallele Pfade: einen seriellen Pfad, der dem klassischen ASR+STYLE-Ansatz folgt, und einen parallelen Pfad, der ein speziell entwickeltes Acoustic‑Linguistic Similarity Module (ALSM) integriert. Dieses Modul ermöglicht eine gleichzeitige, cross‑modal Interaktion, wodurch die beiden Modalitäten effizient zusammengeführt werden.
Im Vergleich zum etablierten OSUM‑Modell reduziert die neue Dual‑Path‑Architektur die Parameterzahl um beeindruckende 88,4 % und steigert die Erkennungsgenauigkeit für acht verschiedene Sprachstile um 30,3 %. Diese Fortschritte markieren einen bedeutenden Schritt vorwärts in der automatisierten Analyse von Sprachstilen und eröffnen neue Möglichkeiten für Anwendungen in der Sprachverarbeitung und -analyse.