Semantischer Cache für heterogene LLM-Workloads: Kategorie‑basierte Optimierung
In modernen LLM‑Serving‑Systemen kommen stark unterschiedliche Anfragen zusammen: Code‑Abfragen bilden dichte Cluster im Einbettungsraum, während Konversationsanfragen weit verstreut sind. Gleichzeitig variiert die Datenstaleheit von Minuten bei Börseninformationen bis zu Monaten bei Code‑Mustern, und die Wiederholungsmuster folgen unterschiedlichen Verteilungen. Diese Vielfalt führt zu einer langen Schwanz‑Verteilung der Cache‑Hit‑Raten: Kategorien mit hoher Wiederholung erreichen 40‑60 % Treffer, während seltene oder volatile Kategorien nur 5‑15 % erzielen.
Vektor‑Datenbanken müssen den langen Schwanz ausklammern, denn die 30 ms‑Kosten für entfernte Suchen erfordern 15‑20 % Treffer, um wirtschaftlich zu sein. Das Ergebnis: 20‑30 % des Produktionsverkehrs bleibt uncachet. Einheitliche Cache‑Strategien verschärfen das Problem: feste Schwellenwerte erzeugen Fehlalarme in dichten Räumen und verfehlen gültige Paraphrasen in spärlichen Räumen, während feste TTLs Speicher verschwenden oder veraltete Daten liefern.
Die vorgestellte Kategorie‑bewusste semantische Caching‑Lösung passt Ähnlichkeitsschwellen, TTLs und Quoten an die jeweilige Anfragenkategorie an. Durch eine hybride Architektur, die die HNSW‑Suche im Speicher von der externen Dokumentenspeicherung trennt, sinkt die Fehlersuche von 30 ms auf 2 ms. Diese Kostenreduktion macht selbst Kategorien mit niedrigen Trefferquoten wirtschaftlich tragbar – Break‑Even bei 3‑5 % statt 15‑20 %. Damit kann der Cache die gesamte Arbeitslast abdecken.
Darüber hinaus erweitern adaptive, belastungsbasierte Richtlinien das Konzept: Sie passen Schwellenwerte und TTLs dynamisch an die aktuelle Modellbelastung an und reduzieren theoretisch den Datenverkehr zu überlasteten Modellen um 9‑17 %. Diese Innovation verspricht eine effizientere Nutzung von LLM‑Infrastrukturen und eine gleichmäßigere Performance über alle Anfragetypen hinweg.