Semantischer Cache für heterogene LLM-Workloads: Kategorie‑basierte Optimierung

arXiv – cs.AI Original ≈2 Min. Lesezeit
Anzeige

In modernen LLM‑Serving‑Systemen kommen stark unterschiedliche Anfragen zusammen: Code‑Abfragen bilden dichte Cluster im Einbettungsraum, während Konversationsanfragen weit verstreut sind. Gleichzeitig variiert die Datenstale­heit von Minuten bei Börseninformationen bis zu Monaten bei Code‑Mustern, und die Wiederholungs­muster folgen unterschiedlichen Verteilungen. Diese Vielfalt führt zu einer langen Schwanz‑Verteilung der Cache‑Hit‑Raten: Kategorien mit hoher Wiederholung erreichen 40‑60 % Treffer, während seltene oder volatile Kategorien nur 5‑15 % erzielen.

Vektor‑Datenbanken müssen den langen Schwanz ausklammern, denn die 30 ms‑Kosten für entfernte Suchen erfordern 15‑20 % Treffer, um wirtschaftlich zu sein. Das Ergebnis: 20‑30 % des Produktionsverkehrs bleibt uncachet. Einheitliche Cache‑Strategien verschärfen das Problem: feste Schwellenwerte erzeugen Fehlalarme in dichten Räumen und verfehlen gültige Paraphrasen in spärlichen Räumen, während feste TTLs Speicher verschwenden oder veraltete Daten liefern.

Die vorgestellte Kategorie‑bewusste semantische Caching‑Lösung passt Ähnlich­keits­schwellen, TTLs und Quoten an die jeweilige Anfragenkategorie an. Durch eine hybride Architektur, die die HNSW‑Suche im Speicher von der externen Dokumentenspeicherung trennt, sinkt die Fehlersuche von 30 ms auf 2 ms. Diese Kostenreduktion macht selbst Kategorien mit niedrigen Trefferquoten wirtschaftlich tragbar – Break‑Even bei 3‑5 % statt 15‑20 %. Damit kann der Cache die gesamte Arbeitslast abdecken.

Darüber hinaus erweitern adaptive, belastungsbasierte Richtlinien das Konzept: Sie passen Schwellenwerte und TTLs dynamisch an die aktuelle Modellbelastung an und reduzieren theoretisch den Datenverkehr zu überlasteten Modellen um 9‑17 %. Diese Innovation verspricht eine effizientere Nutzung von LLM‑Infrastrukturen und eine gleichmäßigere Performance über alle Anfragetypen hinweg.

Ähnliche Artikel