Forschung arXiv – cs.AI

Neues, kompakt optimiertes ASR-Modell liefert Echtzeit-Spracherkennung auf CPU

Ein umfassendes Benchmarking von über 50 Konfigurationen – darunter OpenAI Whisper, NVIDIA Nemotron, Parakeet TDT, Canary, Conformer Transducer und Qwen3-ASR – hat gezeigt, dass NVIDIA’s Nemotron Speech Streaming das st…

≈1 Min. Lesezeit Originalquelle
Visuelle Illustration fuer KI-Kontext
Kernaussagen
Das nimmst du aus dem Beitrag mit
  • Ein umfassendes Benchmarking von über 50 Konfigurationen – darunter OpenAI Whisper, NVIDIA Nemotron, Parakeet TDT, Canary, Conformer Transducer und Qwen3-ASR – hat gezei…
  • Die Studie deckt sämtliche Architekturen ab – Encoder‑Decoder, Transducer und LLM‑basierte Ansätze – und bewertet sie in Batch-, Chunked- und Streaming‑Modi.
  • Um die Leistung noch weiter zu steigern, wurde die komplette Streaming‑Inference‑Pipeline in ONNX Runtime neu implementiert.

Ein umfassendes Benchmarking von über 50 Konfigurationen – darunter OpenAI Whisper, NVIDIA Nemotron, Parakeet TDT, Canary, Conformer Transducer und Qwen3-ASR – hat gezeigt, dass NVIDIA’s Nemotron Speech Streaming das stärkste Modell für Echtzeit‑Spracherkennung auf ressourcenbeschränkten Geräten ist. Die Studie deckt sämtliche Architekturen ab – Encoder‑Decoder, Transducer und LLM‑basierte Ansätze – und bewertet sie in Batch-, Chunked- und Streaming‑Modi.

Um die Leistung noch weiter zu steigern, wurde die komplette Streaming‑Inference‑Pipeline in ONNX Runtime neu implementiert. Durch gezielte Post‑Training‑Quantisierung (k‑Quant mit Importance‑Weighting, Mixed‑Precision und Round‑to‑Nearest) sowie graph‑level Operator‑Fusion konnte die Modellgröße von 2,47 GB auf lediglich 0,67 GB reduziert werden – ohne die Wortfehlerrate (WER) um mehr als 1 % zu verschlechtern.

Die empfohlene int4 k‑Quant‑Variante erzielt einen durchschnittlichen Streaming‑WER von 8,20 % über acht Standard‑Benchmarks. Gleichzeitig läuft sie auf einer reinen CPU deutlich schneller als Echtzeit, mit einer algorithmischen Latenz von nur 0,56 s. Damit setzt das Modell einen neuen Qualitäts‑Effizienz‑Punkt für On‑Device‑Streaming‑ASR und beweist, dass hochpräzise Spracherkennung ohne GPU‑Beschleunigung möglich ist.

Einordnen in 60 Sekunden

Welche Linse du auf diese Meldung legen solltest

Dieses Thema ist relevant, weil es zeigt, wie sich KI-Produkte, Modelle oder Rahmenbedingungen in der Praxis verschieben.

Achte zuerst darauf, was sich fuer Nutzer, Builder oder Unternehmen konkret veraendert und ob daraus ein nachhaltiger Trend entsteht.

Was veraendert sich praktisch?
Ist das eher Signal, Produkt oder nur kurzfristiger Hype?
Begriffe zum Einordnen

Kontext ohne Glossar-Suche

Benchmarking
Dieses Thema ist relevant, weil es zeigt, wie sich KI-Produkte, Modelle oder Rahmenbedingungen in der Praxis verschieben.
Echtzeit‑Spracherkennung
Dieses Thema ist relevant, weil es zeigt, wie sich KI-Produkte, Modelle oder Rahmenbedingungen in der Praxis verschieben.
ONNX Runtime
Dieses Thema ist relevant, weil es zeigt, wie sich KI-Produkte, Modelle oder Rahmenbedingungen in der Praxis verschieben.
arXiv – cs.AI
Diese Quelle setzt den Ausgangspunkt fuer die Meldung. Pruefe immer, ob sie eher Forschung, Produktmarketing oder Praxisperspektive liefert.
Naechste Schritte

Aehnliche Entwicklungen zum Weiterlesen