Neues Whisper-Modell verbessert zweisprachige Phonem-Erkennung Vietnamesisch‑Englisch

arXiv – cs.AI Original ≈1 Min. Lesezeit
Anzeige

Forscher haben ein neues Whisper‑basiertes System vorgestellt, das die Erkennung von Phonemen in gemischten vietnamesisch‑englischen Sprachaufnahmen deutlich verbessert. Das Hauptproblem bei der zweisprachigen Spracherkennung liegt in den unterschiedlichen Lautsystemen: Vietnamesisch nutzt Töne, um Bedeutungen zu unterscheiden, während Englisch auf Betonungen und unregelmäßige Aussprachen setzt. Diese Unterschiede erschweren die Ausrichtung von Phonemen zwischen den beiden Sprachen.

Die Lösung besteht aus zwei Kernkomponenten. Erstens wird ein gemeinsames, repräsentatives Phonem‑Set entwickelt, das die Unterschiede zwischen den beiden Lautsystemen überbrückt. Zweitens nutzt das System den PhoWhisper‑Encoder, ein vortrainiertes Modell, das tiefgreifende, hochstufige Repräsentationen erzeugt. Durch die Kombination dieser Ansätze entsteht ein end‑to‑end‑System, das die Phonem‑Erkennung in bilingualen Aufnahmen optimiert.

Umfangreiche Experimente zeigen, dass das neue Modell die Erkennungsgenauigkeit für vietnamesische Sprachdaten steigert und gleichzeitig ein robustes Framework für die Bewältigung von Ton‑ und Betonungs‑Komplexitäten liefert. Damit eröffnet die Arbeit neue Perspektiven für die Entwicklung von Sprachassistenten und automatischen Transkriptionssystemen, die mehrere Sprachen gleichzeitig verarbeiten müssen.

Ähnliche Artikel