LongCat Flash Omni: 560 Billiarden Parameter, Echtzeit Audio‑Video‑Interaktion

MarkTechPost Original ≈1 Min. Lesezeit
Anzeige

Meituan’s LongCat-Team hat mit LongCat Flash Omni ein bahnbrechendes, quelloffenes Omni‑Modal‑Modell vorgestellt. Das System kombiniert 560 Billiarden Parameter – von denen pro Token etwa 27 Billiarden aktiv sind – und ermöglicht gleichzeitig das Verarbeiten von Text, Bild, Video und Audio.

LongCat Flash Omni ist darauf ausgelegt, in Echtzeit zu hören, zu sehen, zu lesen und zu antworten. Durch die effiziente Architektur kann das Modell komplexe Audio‑Video‑Interaktionen ohne Verzögerung durchführen und dabei die Leistungsfähigkeit eines großen Modells beibehalten.

Die Veröffentlichung markiert einen wichtigen Schritt in der Entwicklung von multimodalen KI-Systemen und bietet Forschern sowie Entwicklern ein leistungsstarkes Werkzeug für Anwendungen, die simultane Text‑ und Bild‑ sowie Audio‑Verarbeitung erfordern.

Ähnliche Artikel