Neues Tool EMSYNC generiert automatisch Musik, die Videos emotional synchronisiert
Mit der rasanten Zunahme von Videoinhalten im Internet bleibt die passende Musik oft ein Problem. Die neue Arbeit von ArXiv‑Studierenden löst dieses Dilemma mit EMSYNC – einem schnellen, kostenlosen und vollständig automatischen System, das Musik erzeugt, die exakt auf das Eingabevideo abgestimmt ist. So können Content‑Creator ihre Produktionen ohne eigenes Komponieren oder Lizenzkosten aufwerten.
Der Kern von EMSYNC ist ein neuartiger Video‑Emotion‑Classifier. Durch die Nutzung vortrainierter Deep‑Learning‑Netze für die Feature‑Extraktion und das Fixieren dieser Modelle, während nur die Fusion‑Schichten trainiert werden, wird die Rechenkomplexität reduziert und die Genauigkeit erhöht. Das Ergebnis: EMSYNC erzielt Spitzenleistungen auf den Benchmarks Ekman‑6 und MovieNet.
Ein weiteres Highlight ist ein umfangreiches, emotionsgelabeltes MIDI‑Datenset, das die Grundlage für die affektive Musikgenerierung bildet. Der damit entwickelte MIDI‑Generator kann kontinuierliche emotionale Werte verarbeiten – ein erster Schritt, der nuancierte Musik ermöglicht, die komplexe emotionale Inhalte widerspiegelt.
Zur Verbesserung der zeitlichen Synchronisation führt EMSYNC die Methode „boundary offset encodings“ ein. Diese Technik koppelt musikalische Akkorde an Szenenwechsel, sodass die Musik nicht nur emotional, sondern auch rhythmisch mit dem Video übereinstimmt.
Durch die Kombination aus Video‑Emotion‑Erkennung, emotionsbasierter Musikgenerierung und zeitlicher Grenzbedingung entsteht ein vollständig automatischer Video‑Music‑Generator. Nutzerstudien zeigen, dass EMSYNC bestehende Ansätze konsequent übertrifft.