Sicher und schnell: Duale Privatsphäre für LLM-Inferenz mit CMIF

arXiv – cs.AI Original ≈1 Min. Lesezeit
Anzeige

Ein brandneues Framework namens CMIF verspricht, die Sicherheit und Effizienz bei der Inferenz großer Sprachmodelle zu revolutionieren. Durch die Kombination von Trusted Execution Environments (TEEs) und differenzieller Privatsphäre (DP) bietet CMIF einen robusten Schutz für Nutzerdaten, ohne die Leistung der Modelle zu stark zu beeinträchtigen.

Traditionell führen TEEs zu hohen Latenzen, weshalb viele Forscher Teile der Modelle auf GPUs auslagern. Bei dichten, nichtlinearen Schichten echter LLMs entsteht jedoch ein erheblicher Kommunikationsaufwand zwischen TEE und GPU, was die Effizienz weiter reduziert. Andererseits führt die Anwendung von DP, bei der zufälliger Rauschen hinzugefügt wird, häufig zu einem Verlust an semantischem Verständnis und Modellleistung.

CMIF löst diese Probleme, indem es die Embedding-Schicht im clientseitigen TEE ausführt und die nachfolgenden Schichten auf GPU-Servern laufen lässt. Gleichzeitig optimiert es den Report-Noisy-Max-Mechanismus, um sensible Eingaben mit minimaler Leistungseinbuße zu schützen. Umfangreiche Tests mit Llama-Modellen zeigen, dass CMIF die zusätzliche Latenz in TEEs deutlich senkt und gleichzeitig die Privatsphäre der Nutzer bewahrt.

Ähnliche Artikel