ScaleDL: Skalierbare Laufzeitvorhersage für verteilte Deep‑Learning‑Workloads

arXiv – cs.LG Original ≈1 Min. Lesezeit
Anzeige

Deep‑Neurale Netzwerke bilden die Grundlage moderner KI‑Dienste – von selbstfahrenden Autos über Chatbots bis hin zu Empfehlungssystemen. Mit zunehmender Größe und Komplexität stellen Trainings‑ und Inferenzaufgaben enorme Anforderungen an verteilte Rechenressourcen, sodass eine präzise Laufzeitvorhersage für die Optimierung von Entwicklungszyklen und Ressourcenallokation unerlässlich wird.

Traditionelle Vorhersagemodelle basieren meist auf additiven Schätzungen einzelner Recheneinheiten. Diese Ansätze sind zwar einfach, erreichen jedoch nur begrenzte Genauigkeit und Generalisierbarkeit. Graph‑basierte Modelle verbessern die Leistung, erfordern jedoch einen hohen Aufwand an Datenaufbereitung und -sammlung.

Um diese Herausforderungen zu meistern, präsentiert die neue Studie ScaleDL – ein Laufzeitvorhersage‑Framework, das nichtlineare, schichtweise Modellierung mit einem Graph‑Neural‑Network‑Mechanismus zur Interaktion zwischen Schichten kombiniert. Zusätzlich wird die D‑optimale Stichprobenstrategie eingesetzt, um die Kosten für die Datensammlung drastisch zu senken.

In Experimenten mit fünf populären Deep‑Learning‑Modellen konnte ScaleDL die Genauigkeit der Laufzeitvorhersage deutlich steigern: Der mittlere relative Fehler (MRE) wurde um das Sechsfache reduziert, während der mittlere quadratische Fehler (RMSE) um das Fünffache unter den Baseline‑Modellen lag. Diese Ergebnisse zeigen, dass ScaleDL eine vielversprechende Lösung für effiziente und skalierbare Laufzeitvorhersagen in verteilten Deep‑Learning‑Umgebungen darstellt.

Ähnliche Artikel