Forschung arXiv – cs.AI

Neues, kompakt optimiertes ASR-Modell liefert Echtzeit-Spracherkennung auf CPU

17.04.2026 04:00 • ≈1 Min. Lesezeit • Originalquelle

#Benchmarking #Echtzeit‑Spracherkennung #ONNX Runtime #Post‑Training‑Quantisierung #k‑Quant #Mixed‑Precision #Operator‑Fusion

Kernaussagen

Das nimmst du aus dem Beitrag mit

Ein umfassendes Benchmarking von über 50 Konfigurationen – darunter OpenAI Whisper, NVIDIA Nemotron, Parakeet TDT, Canary, Conformer Transducer und Qwen3-ASR – hat gezei…
Die Studie deckt sämtliche Architekturen ab – Encoder‑Decoder, Transducer und LLM‑basierte Ansätze – und bewertet sie in Batch-, Chunked- und Streaming‑Modi.
Um die Leistung noch weiter zu steigern, wurde die komplette Streaming‑Inference‑Pipeline in ONNX Runtime neu implementiert.

Ein umfassendes Benchmarking von über 50 Konfigurationen – darunter OpenAI Whisper, NVIDIA Nemotron, Parakeet TDT, Canary, Conformer Transducer und Qwen3-ASR – hat gezeigt, dass NVIDIA’s Nemotron Speech Streaming das stärkste Modell für Echtzeit‑Spracherkennung auf ressourcenbeschränkten Geräten ist. Die Studie deckt sämtliche Architekturen ab – Encoder‑Decoder, Transducer und LLM‑basierte Ansätze – und bewertet sie in Batch-, Chunked- und Streaming‑Modi.

Um die Leistung noch weiter zu steigern, wurde die komplette Streaming‑Inference‑Pipeline in ONNX Runtime neu implementiert. Durch gezielte Post‑Training‑Quantisierung (k‑Quant mit Importance‑Weighting, Mixed‑Precision und Round‑to‑Nearest) sowie graph‑level Operator‑Fusion konnte die Modellgröße von 2,47 GB auf lediglich 0,67 GB reduziert werden – ohne die Wortfehlerrate (WER) um mehr als 1 % zu verschlechtern.

Die empfohlene int4 k‑Quant‑Variante erzielt einen durchschnittlichen Streaming‑WER von 8,20 % über acht Standard‑Benchmarks. Gleichzeitig läuft sie auf einer reinen CPU deutlich schneller als Echtzeit, mit einer algorithmischen Latenz von nur 0,56 s. Damit setzt das Modell einen neuen Qualitäts‑Effizienz‑Punkt für On‑Device‑Streaming‑ASR und beweist, dass hochpräzise Spracherkennung ohne GPU‑Beschleunigung möglich ist.

Einordnen in 60 Sekunden

Welche Linse du auf diese Meldung legen solltest

Dieses Thema ist relevant, weil es zeigt, wie sich KI-Produkte, Modelle oder Rahmenbedingungen in der Praxis verschieben.

Achte zuerst darauf, was sich fuer Nutzer, Builder oder Unternehmen konkret veraendert und ob daraus ein nachhaltiger Trend entsteht.

Was veraendert sich praktisch?

Ist das eher Signal, Produkt oder nur kurzfristiger Hype?

Begriffe zum Einordnen

Kontext ohne Glossar-Suche

Benchmarking

Dieses Thema ist relevant, weil es zeigt, wie sich KI-Produkte, Modelle oder Rahmenbedingungen in der Praxis verschieben.

Echtzeit‑Spracherkennung

Dieses Thema ist relevant, weil es zeigt, wie sich KI-Produkte, Modelle oder Rahmenbedingungen in der Praxis verschieben.

ONNX Runtime

Dieses Thema ist relevant, weil es zeigt, wie sich KI-Produkte, Modelle oder Rahmenbedingungen in der Praxis verschieben.

arXiv – cs.AI

Diese Quelle setzt den Ausgangspunkt fuer die Meldung. Pruefe immer, ob sie eher Forschung, Produktmarketing oder Praxisperspektive liefert.

Lernpfad

Wenn du nach dieser Meldung weiterlernen willst

Themen-Hub

Benchmarking systematisch verfolgen

Achte zuerst darauf, was sich fuer Nutzer, Builder oder Unternehmen konkret veraendert und ob daraus ein nachhaltiger Trend entsteht.

Archiv

Weitere Beispiele zu Benchmarking

Nutze das Archiv, um Muster, Wiederholungen und Trendlinien innerhalb des Themas zu sehen.

Im Themen-Cluster weiter

Von dieser Meldung direkt in Hub, Analyse und Nachbarthemen

Themen-Hub

Benchmarking

Achte zuerst darauf, was sich fuer Nutzer, Builder oder Unternehmen konkret veraendert und ob daraus ein nachhaltiger Trend entsteht.

1 Signale in 7 Tagen • 30 Artikel im Hub

Hub oeffnen →

Nachbar-Hub

LLM

Dieses Thema taucht in denselben KI-Entwicklungen regelmaessig mit auf und hilft beim groesseren Bild.

4 gemeinsame Signale

Nachbar-Hub

KI-Modelle

Dieses Thema taucht in denselben KI-Entwicklungen regelmaessig mit auf und hilft beim groesseren Bild.

3 gemeinsame Signale

Nachbar-Hub

große Sprachmodelle

Dieses Thema taucht in denselben KI-Entwicklungen regelmaessig mit auf und hilft beim groesseren Bild.

3 gemeinsame Signale

Naechste Schritte

Aehnliche Entwicklungen zum Weiterlesen

VentureBeat – AI

Patronus AI: Neue Trainingswelten sollen Fehlerquote von KI-Agenten senken

17.12.2025 14:00

arXiv – cs.LG

EnviroLLM: Open-Source-Tool zur Messung und Optimierung lokaler KI

16.12.2025 05:00

arXiv – cs.AI

ART: Benchmark für medizinische KI-Agenten – Action‑basierte Entscheidungsfindung

15.01.2026 05:00

arXiv – cs.AI

LLMs meistern PhD-Mathematik: Benchmark aus Theoretischer Informatik

17.12.2025 05:00

arXiv – cs.AI

SpatialBench: Neuer Maßstab für räumliche Intelligenz multimodaler Sprachmodelle

27.11.2025 05:00

arXiv – cs.AI

OpenDataArena: Plattform zur Bewertung von Post‑Training‑Daten

17.12.2025 05:00

Warum das wichtig ist

Relevant fuer Leserinnen und Leser, die KI nicht nur verfolgen, sondern einordnen wollen: Der Beitrag zeigt, was sich bei Benchmarking, Echtzeit‑Spracherkennung konkret verschiebt und welche Folgen das fuer Nutzung, Produkte oder Entscheidungen haben kann. Ausgangspunkt ist die Quelle arXiv – cs.AI.

Quellenklarheit

Quelle: arXiv – cs.AI
Original: Zum Ursprungsbeitrag
Website: arXiv – cs.AI

Themenradar

Themen folgen

Benchmarking

Echtzeit‑Spracherkennung

ONNX Runtime

Post‑Training‑Quantisierung

Morning Briefing

Diese Themen im Briefing verfolgen

Wenn dich genau diese Themen wieder interessieren werden, mach daraus einen festen Morgen-Slot statt einzelner Zufallsklicks.

Briefing mit Fokus konfigurieren →

Welche Linse du auf diese Meldung legen solltest

Kontext ohne Glossar-Suche

Wenn du nach dieser Meldung weiterlernen willst

Von dieser Meldung direkt in Hub, Analyse und Nachbarthemen

Aehnliche Entwicklungen zum Weiterlesen

🍪 Cookie-Einstellungen