Neues KI-Modell trennt Sprache und Rauschen ohne gepaarte Daten

MarkTechPost Original ≈1 Min. Lesezeit
Anzeige

Ein neues KI-Modell kann Sprachaufnahmen aus verrauschten Aufnahmen extrahieren, ohne jemals ein Paar aus sauberer und verrauschter Audiodatei gesehen zu haben. Forscher der Technischen Universität Brno und der Johns‑Hopkins‑University haben die Methode Unsupervised Speech Enhancement using Data‑defined Priors (USE‑DDP) vorgestellt. Das System nutzt einen dualen Encoder‑Decoder-Ansatz, der jede verrauschte Aufnahme in zwei separate Signale zerlegt: eine Schätzung der reinen Sprache und das verbleibende Rauschen. Durch die Nutzung von ausschließlich realen, verrauschten Aufnahmen als Trainingsdaten beweist USE‑DDP, dass moderne neuronale Architekturen mit geeigneten Priors selbstständig die Sprachkomponente isolieren können. Die Ergebnisse deuten darauf hin, dass die Technik besonders in Anwendungen mit begrenzten oder fehlenden gepaarten Trainingsdaten von großem Nutzen sein könnte.

Ähnliche Artikel