ParetoBandit: Kostenkontrolliertes Routing für dynamische LLM-Server
In der Produktion von Large‑Language‑Modelle (LLM) wird häufig ein Portfolio aus mehreren Modellen genutzt, die sich in Kosten um mehr als ein halbes Jahrhundert unterscheiden. Die Entscheidung, welches Modell für einen…