ERF-BA-TFD+ setzt neue Maßstäbe bei Audio-Visual Deepfake-Erkennung
Ein brandneues multimodales Deepfake-Erkennungsmodell namens ERF-BA-TFD+ hat die Messlatte für die Analyse manipulierten Multimedia‑Inhalts in der realen Welt deutlich anheben. Durch die Kombination eines erweiterten Receptive Field (ERF) mit einer Audio‑Visual‑Fusion verarbeitet das System gleichzeitig Ton‑ und Bilddaten und nutzt die komplementären Informationen beider Modalitäten, um die Erkennungsgenauigkeit und Robustheit zu steigern.
Die zentrale Innovation von ERF-BA-TFD+ besteht darin, lange Abhängigkeiten innerhalb der Audio‑Visual‑Eingabe zu modellieren. Dadurch kann das Modell subtile Diskrepanzen zwischen echten und gefälschten Inhalten besser erfassen, was besonders bei komplexen Deepfake‑Angriffen von entscheidender Bedeutung ist.
In den Experimenten wurde das Modell auf dem DDL‑AV‑Datensatz getestet, der sowohl segmentierte als auch komplette Videoclips umfasst. Dieser Datensatz ermöglicht eine realitätsnahe Bewertung, im Gegensatz zu früheren Benchmarks, die sich auf isolierte Segmente beschränkten. ERF-BA-TFD+ erzielte dabei einen neuen Stand der Technik – sowohl in Bezug auf die Genauigkeit als auch auf die Verarbeitungszeit.
Die herausragende Leistung zeigte sich auch im „Workshop on Deepfake Detection, Localization, and Interpretability“, Track 2: Audio‑Visual Detection and Localization (DDL‑AV). Dort sicherte sich ERF-BA-TFD+ den ersten Platz und bestätigte damit seine Überlegenheit gegenüber bestehenden Ansätzen.