Neues ASR-Modell nutzt Artikulationsdaten für bessere Erkennung
Anzeige
In einer aktuellen Studie wird die Rolle von Artikulationsmerkmalen in der automatischen Spracherkennung neu beleuchtet. Durch die Kombination von Sprachumkehrung als Hilfsaufgabe und die Einbindung der vorhergesagten Artikulationsdaten in ein Cross‑Attention‑Modul erzielt das Modell signifikante Verbesserungen gegenüber etablierten Transformer‑Baselines. Besonders bei begrenzten Datenmengen zeigen sich deutliche Fortschritte, was die Bedeutung moderner Architekturen für die Nutzung von Artikulationsinformationen unterstreicht.
Ähnliche Artikel
arXiv – cs.LG
•
PGF-Net: Gated-Fusion-Framework für effiziente multimodale Sentimentanalyse
arXiv – cs.LG
•
Gemeinsames Aufgaben-Framework beschleunigt wissenschaftliche Entdeckungen
arXiv – cs.AI
•
Tokenisierung von Assemblersprache: entscheidend für LLMs & Transformer
arXiv – cs.AI
•
LLMs nach dem Training: Bessere Entscheidungsagenten durch Regret-Minimierung
arXiv – cs.LG
•
Neues Verfahren: Decomposable Neuro Symbolic Regression erklärt komplexe Systeme
arXiv – cs.LG
•
Transformer-Modell revolutioniert Risikobewertung aus heterogenen EHR-Daten