NVIDIA präsentiert Jet‑Nemotron: 53‑fach schnellere LLMs mit 98 % Kostensenkung
NVIDIA hat die neue Hybrid‑Architektur Jet‑Nemotron vorgestellt, die in den Modellen 2 Billionen und 4 Billionen Parametern bis zu 53,6‑fach höhere Durchsatzraten bei der Textgenerierung erzielt. Trotz der enormen Geschwindigkeitssteigerung bleibt die Genauigkeit gleich oder sogar besser als bei den führenden Full‑Attention‑Modellen.
Der Durchbruch beruht nicht auf einem neuen, von Grund auf neu trainierten Modell, sondern auf einer optimierten Architektur, die die Rechenlast reduziert und gleichzeitig die Leistungsfähigkeit erhält. Dadurch können Entwickler die Modelle ohne zusätzliche Trainingsressourcen einsetzen.
Ein besonders großer Vorteil ist die drastische Kostenreduktion: Bei großem Einsatz der Inferenzprozesse kann Jet‑Nemotron die Ausgaben um bis zu 98 % senken. Das macht die Technologie für Unternehmen attraktiv, die große Sprachmodelle in produktiven Anwendungen nutzen wollen, ohne dabei die Betriebskosten in die Höhe zu treiben.