Dynamische Scheduler steigern GPU-Cluster-Auslastung auf 78 %
GPU‑Cluster sind heute unverzichtbar für das Training und die Bereitstellung moderner KI‑Systeme, doch in der Praxis bleibt die Auslastung häufig bei nur etwa 50 %. Diese Ineffizienz resultiert vor allem aus Fragmentierung, heterogenen Arbeitslasten und den Beschränkungen statischer Scheduling‑Strategien.
In einer systematischen Analyse wurden drei neue, dynamische Scheduler vorgestellt: Hybrid Priority (HPS), Predictive Backfill (PBS) und Smart Batch (SBS). Diese Scheduler sind darauf ausgelegt, die Auslastung, die Fairness und die Gesamthdurchsatzleistung in Multi‑Tenant‑GPU‑Clustern zu optimieren.
Die Bewertung erfolgte anhand einer kontrollierten Simulation mit 1 000 KI‑Jobs auf einem 64‑GPU, 8‑Node‑Cluster, das Trainings-, Inferenz‑ und Forschungsaufgaben realistisch abbildet. Im Vergleich zu statischen Baselines (FIFO, SJF, Shortest, Shortest‑GPU) erreichten die dynamischen Scheduler deutlich höhere Werte: HPS erzielte 78,2 % Auslastung, 25,8 Jobs pro Stunde und reduzierte die Starvation auf nur 12 Jobs. PBS folgte mit 76,1 % Auslastung, während SBS 74,6 % erreichte.
Alle Schlüsselkennzahlen – Durchsatz, Wartezeiten, Fairness‑Varianz und Starvation – zeigen, dass dynamische, multi‑objective Scheduler die Leistung von GPU‑Clustern signifikant verbessern und die häufige Unterauslastung und Ungleichverteilung von Ressourcen effektiv bekämpfen.