TV-Untertitel als intelligente Prompt-Quelle verbessern ASR-Transkripte

arXiv – cs.AI Original ≈1 Min. Lesezeit
Anzeige

In einer innovativen Studie wird gezeigt, wie TV-Untertitel in einem schwach überwachten (WS) Automatic Speech Recognition (ASR)-Framework als kontextreiche Prompt-Quellen genutzt werden können. Obwohl Untertitel leicht verfügbar sind, sind ihre zeitliche Ausrichtung oft ungenau, was sie für eine direkte Supervision ungeeignet macht. Stattdessen werden die Untertitel als Leitfäden für eine iterative Verfeinerung eingesetzt, wobei die eigentlichen Transkripte als pseudo-labeled Ziele dienen.

Der Ansatz kombiniert die Untertitel mit einem gewichteten Aufmerksamkeitsmechanismus, der während der Inferenz die relevanten Tokens hervorhebt. Durch diese Technik kann das Modell Diskrepanzen zwischen Audio und Text besser handhaben und die Genauigkeit der Transkription deutlich steigern.

Experimentelle Ergebnisse belegen signifikante Verbesserungen in der Transkriptionsgenauigkeit. Die daraus gewonnenen hochwertigen pseudo-labeled Datensätze bilden eine solide Basis für das Training robuster ASR-Systeme und eröffnen neue Perspektiven für die Nutzung von Untertiteln in der Spracherkennung.

Ähnliche Artikel