Microsoft präsentiert VibeVoice-1.5B: TTS mit 90 Minuten Audio und vier Stimmen
Microsoft hat sein neuestes Open‑Source‑Text‑to‑Speech‑Modell VibeVoice‑1.5B vorgestellt. Das Modell setzt neue Maßstäbe in der Sprachsynthese, indem es ausdrucksstarke, langformige Audiodateien erzeugt, die bis zu 90 Minuten lang ohne Unterbrechung laufen.
Ein besonderes Merkmal von VibeVoice‑1.5B ist die gleichzeitige Erzeugung von bis zu vier unterschiedlichen Sprecherstimmen. Dadurch können komplexe Dialoge oder mehrsprachige Inhalte in einem einzigen Durchlauf generiert werden, was die Effizienz und Flexibilität für Entwickler und Forscher erheblich erhöht.
Die Veröffentlichung erfolgt unter der MIT‑Lizenz, was eine freie Nutzung, Modifikation und Weiterverbreitung des Modells ermöglicht. Microsoft betont, dass VibeVoice‑1.5B skalierbar und hochgradig anpassbar ist, sodass es sich ideal für Forschungsprojekte und experimentelle Anwendungen eignet.
VibeVoice‑1.5B ist mehr als nur ein TTS‑Engine – es handelt sich um ein umfassendes Framework, das die Grenzen der Text‑zu‑Sprache‑Technologie erweitert und neue Möglichkeiten für die Erstellung natürlicher, langanhaltender Audiosignale eröffnet.