NVIDIA präsentiert Nemotron Nano V2 VL – Spitzenleistung bei Dokumentenbewertung
NVIDIA hat heute das neueste Modell der Nemotron Vision‑Language-Serie vorgestellt: Nemotron Nano V2 VL. Das System ist speziell für die Analyse von Dokumenten, die Verarbeitung langer Videos und komplexe Denkaufgaben konzipiert.
Im Vergleich zum Vorgänger Llama‑3.1‑Nemotron‑Nano‑VL‑8B erzielt Nemotron Nano V2 VL in allen visuellen und textuellen Bereichen deutliche Fortschritte. Diese Verbesserungen resultieren aus einer überarbeiteten Modellarchitektur, erweiterten Datensätzen und optimierten Trainingsmethoden.
Das Modell baut auf Nemotron Nano V2, einem hybriden Mamba‑Transformer‑LLM, auf und nutzt innovative Token‑Reduktionsverfahren, um die Inferenzgeschwindigkeit bei langen Dokumenten und Videos zu erhöhen.
NVIDIA stellt die Checkpoints in den Formaten BF16, FP8 und FP4 zur Verfügung und teilt einen Großteil der Datensätze, Trainingsrezepte und Code. Damit ermöglicht das Unternehmen Forschern und Entwicklern, die Leistungsfähigkeit von Nemotron Nano V2 VL in eigenen Projekten zu nutzen.