WAND: Effiziente Text‑zu‑Sprache mit Fenster‑Aufmerksamkeit und Distillation
Die neuesten autoregressiven Text‑zu‑Sprache‑Modelle (AR‑TTS) liefern beeindruckende Sprachqualität, doch ihr Speicher- und Rechenaufwand wächst quadratisch mit der Sequenzlänge, weil sie vollständige Selbstaufmerksamke…