Cornserve: Effiziente Bereitstellung von Any-to-Any Multimodal-Modellen

arXiv – cs.LG Original ≈1 Min. Lesezeit
Anzeige

Cornserve ist ein neues Online‑Serving‑System, das speziell für die wachsende Klasse von Any-to-Any Multimodal‑Modellen entwickelt wurde. Diese Modelle können beliebige Kombinationen aus Text, Bild, Video und Audio als Eingabe verarbeiten und gleichzeitig Text sowie multimodale Ausgaben erzeugen.

Die heterogene Natur von Any-to-Any Modellen führt zu unterschiedlichen Anfragetypen, Rechenpfaden und Skalierungsanforderungen. Cornserve ermöglicht es Entwicklern, den gesamten Rechengraphen eines solchen Modells zu beschreiben, wobei Komponenten wie multimodale Encoder, autoregressive Modelle (z. B. Large Language Models) und multimodale Generatoren (wie Diffusion Transformers) berücksichtigt werden.

Ein intelligenter Planner innerhalb von Cornserve erstellt automatisch einen optimierten Bereitstellungsplan. Dabei wird entschieden, ob und wie das Modell in kleinere Teile zerlegt werden soll, basierend auf den Eigenschaften des Modells und der aktuellen Arbeitslast.

Der verteilte Runtime‑Engine führt das Modell gemäß diesem Plan aus und handhabt die Heterogenität der Any-to-Any Modelle effizient während des Online‑Servings.

Evaluierungen zeigen, dass Cornserve die Leistung von Any-to-Any Modellen deutlich steigert: bis zu 3,81‑fach höhere Durchsatzraten und bis zu 5,79‑fach geringere Tail‑Latenz im Vergleich zu bestehenden Lösungen.

Ähnliche Artikel