Serialisierte Prompting verbessert LLM-basierte Mehrsprecher-Spracherkennung
In der neuesten Forschung wird gezeigt, dass große Sprachmodelle (LLM) bei der Erkennung von Gesprächen mehrerer Sprecher deutlich profitieren, wenn sie mit gezielten Prompting-Strategien unterstützt werden. Traditionelle LLM‑basierte Systeme für Mehrsprecher‑ASR setzen meist keine Prompts ein oder nutzen nur einfache Aufgabenbeschreibungen, was die Leistungsfähigkeit begrenzt.
Die Autoren stellen ein neues Verfahren vor, das sogenannte Serialized Output Prompting (SOP). Dabei wird nach dem Sprachencoder ein Separator und eine serialisierte Connectionist Temporal Classification (CTC) –Schicht eingefügt, die die Inhalte der einzelnen Sprecher in einer „first‑speaking‑first‑out“-Reihenfolge trennt. Anschließend wird der SOP‑Prompt durch eine Greedy‑Suche aus den serialisierten CTC‑Ausgaben extrahiert und dem LLM als strukturierter Leitfaden präsentiert.
Zur effektiven Schulung des Modells wird ein dreistufiger Trainingsplan entwickelt: zunächst wird das Modell mit serialized output training (SOT) feinabgestimmt, danach erfolgt die extraktion von Sprachinformationen und schließlich die Anpassung an die SOP‑Prompts. Auf dem LibriMix‑Datensatz konnte gezeigt werden, dass das reine SOT‑Modell bei zwei Sprecher‑Szenarien gut funktioniert, jedoch bei komplexeren drei‑Sprecher‑Aufgaben an seine Grenzen stößt. Durch die Einführung von SOP erzielte das System signifikante Verbesserungen in beiden Szenarien.
Diese Ergebnisse unterstreichen die Bedeutung von strukturiertem Prompting für LLM‑basierte Mehrsprecher‑Spracherkennung und eröffnen neue Wege, um die Genauigkeit in realen, mehrsprachigen Gesprächsumgebungen weiter zu steigern.