Forschung
ParetoBandit: Kostenkontrolliertes Routing für dynamische LLM-Server
In der Produktion von Large‑Language‑Modelle (LLM) wird häufig ein Portfolio aus mehreren Modellen genutzt, die sich in Kosten um mehr als…
arXiv – cs.LG