Transsion präsentiert 3‑Stufen‑ASR‑System: 9,83 % Fehlerquote in 11 Sprachen
Anzeige
Transsion hat ein neues mehrsprachiges ASR‑System vorgestellt, das im Track 1 der MLC‑SLM 2025‑Challenge eingesetzt wurde.
Das System kombiniert drei zentrale Bausteine: einen festgelagerten Whisper‑large‑v3‑Encoder, einen lernbaren Adaptor mit Linear‑ReLU‑Linear‑Transformationen zur Ausrichtung von Sprach‑ und Textrepräsentationen und ein frozen Qwen2.5‑7B‑Instruct‑LLM, das mit LoRA‑Modulen für die kontextuelle Sprachdekodierung optimiert wurde.
Durch die Kombination von vortrainierten Modellen und gezieltem Feintuning erreichte das System eine Wort‑/Zeichen‑Fehlerquote von 9,83 % über 11 Sprachen und belegte den dritten Platz unter allen Teilnehmern.
Ähnliche Artikel
MarkTechPost
•
TwinMind Introduces Ear-3 Model: A New Voice AI Model that Sets New Industry Records in Accuracy, Speaker Labeling, Languages and Price
arXiv – cs.AI
•
SpeechLLM: Unified Speech and Language Model for Enhanced Multi-Task Understanding in Low Resource Settings
arXiv – cs.AI
•
Efficiency vs. Alignment: Investigating Safety and Fairness Risks in Parameter-Efficient Fine-Tuning of LLMs
MarkTechPost
•
Comparing the Top 6 OCR (Optical Character Recognition) Models/Systems in 2025
arXiv – cs.LG
•
ScaLoRA: Optimally Scaled Low-Rank Adaptation for Efficient High-Rank Fine-Tuning
arXiv – cs.AI
•
Preventing Shortcuts in Adapter Training via Providing the Shortcuts