Neues, kompakt optimiertes ASR-Modell liefert Echtzeit-Spracherkennung auf CPU
Ein umfassendes Benchmarking von über 50 Konfigurationen – darunter OpenAI Whisper, NVIDIA Nemotron, Parakeet TDT, Canary, Conformer Transducer und Qwen3-ASR – hat gezeigt, dass NVIDIA’s Nemotron Speech Streaming das st…
- Ein umfassendes Benchmarking von über 50 Konfigurationen – darunter OpenAI Whisper, NVIDIA Nemotron, Parakeet TDT, Canary, Conformer Transducer und Qwen3-ASR – hat gezei…
- Die Studie deckt sämtliche Architekturen ab – Encoder‑Decoder, Transducer und LLM‑basierte Ansätze – und bewertet sie in Batch-, Chunked- und Streaming‑Modi.
- Um die Leistung noch weiter zu steigern, wurde die komplette Streaming‑Inference‑Pipeline in ONNX Runtime neu implementiert.
Ein umfassendes Benchmarking von über 50 Konfigurationen – darunter OpenAI Whisper, NVIDIA Nemotron, Parakeet TDT, Canary, Conformer Transducer und Qwen3-ASR – hat gezeigt, dass NVIDIA’s Nemotron Speech Streaming das stärkste Modell für Echtzeit‑Spracherkennung auf ressourcenbeschränkten Geräten ist. Die Studie deckt sämtliche Architekturen ab – Encoder‑Decoder, Transducer und LLM‑basierte Ansätze – und bewertet sie in Batch-, Chunked- und Streaming‑Modi.
Um die Leistung noch weiter zu steigern, wurde die komplette Streaming‑Inference‑Pipeline in ONNX Runtime neu implementiert. Durch gezielte Post‑Training‑Quantisierung (k‑Quant mit Importance‑Weighting, Mixed‑Precision und Round‑to‑Nearest) sowie graph‑level Operator‑Fusion konnte die Modellgröße von 2,47 GB auf lediglich 0,67 GB reduziert werden – ohne die Wortfehlerrate (WER) um mehr als 1 % zu verschlechtern.
Die empfohlene int4 k‑Quant‑Variante erzielt einen durchschnittlichen Streaming‑WER von 8,20 % über acht Standard‑Benchmarks. Gleichzeitig läuft sie auf einer reinen CPU deutlich schneller als Echtzeit, mit einer algorithmischen Latenz von nur 0,56 s. Damit setzt das Modell einen neuen Qualitäts‑Effizienz‑Punkt für On‑Device‑Streaming‑ASR und beweist, dass hochpräzise Spracherkennung ohne GPU‑Beschleunigung möglich ist.
Welche Linse du auf diese Meldung legen solltest
Dieses Thema ist relevant, weil es zeigt, wie sich KI-Produkte, Modelle oder Rahmenbedingungen in der Praxis verschieben.
Achte zuerst darauf, was sich fuer Nutzer, Builder oder Unternehmen konkret veraendert und ob daraus ein nachhaltiger Trend entsteht.
Kontext ohne Glossar-Suche
Wenn du nach dieser Meldung weiterlernen willst
Von dieser Meldung direkt in Hub, Analyse und Nachbarthemen
Achte zuerst darauf, was sich fuer Nutzer, Builder oder Unternehmen konkret veraendert und ob daraus ein nachhaltiger Trend entsteht.
Dieses Thema taucht in denselben KI-Entwicklungen regelmaessig mit auf und hilft beim groesseren Bild.
Dieses Thema taucht in denselben KI-Entwicklungen regelmaessig mit auf und hilft beim groesseren Bild.
Dieses Thema taucht in denselben KI-Entwicklungen regelmaessig mit auf und hilft beim groesseren Bild.