ScaleOps senkt GPU-Kosten für selbstgehostete LLMs um 50 %
ScaleOps erweitert seine Cloud‑Ressourcen‑Management‑Plattform um ein neues Produkt, das speziell für Unternehmen entwickelt wurde, die große Sprachmodelle und GPU‑basierte KI‑Anwendungen selbst hosten.
Das neue AI Infra Product baut auf den bestehenden Automatisierungsfunktionen von ScaleOps auf und zielt darauf ab, die GPU‑Auslastung zu optimieren, die Leistung vorhersehbarer zu machen und den Betrieb in groß angelegten KI‑Deployments zu erleichtern.
Bereits in Produktionsumgebungen von Unternehmen eingesetzt, berichten frühe Anwender von erheblichen Effizienzsteigerungen – GPU‑Kosten werden laut ScaleOps um 50 % bis 70 % reduziert.
Die Firma veröffentlicht keine einheitlichen Preise, sondern lädt interessierte Kunden ein, ein individuelles Angebot basierend auf ihrer Betriebsgröße und ihren Anforderungen anzufordern.
Yodar Shafrir, CEO und Mitgründer, betonte, dass die Plattform sowohl proaktive als auch reaktive Mechanismen nutzt, um plötzliche Lastspitzen ohne Leistungsverlust zu bewältigen. Durch automatisierte Kapazitätsanpassungen bleiben Ressourcen stets verfügbar.
Ein besonderes Augenmerk liegt auf der Minimierung von GPU‑Cold‑Start‑Verzögerungen, sodass bei Traffic‑Spitzen sofortige Reaktionszeiten gewährleistet sind – ein entscheidender Vorteil bei KI‑Workloads, bei denen das Laden von Modellen lange dauert.
Unternehmen, die selbstgehostete KI‑Modelle einsetzen, sehen sich häufig mit Leistungsvariabilität, langen Ladezeiten und anhaltender Unterauslastung von GPU‑Ressourcen konfrontiert. ScaleOps positioniert das neue Produkt als Lösung, um diese Herausforderungen zu überwinden und die Betriebseffizienz nachhaltig zu steigern.