Forschung
DUALGAUGE: Automatisiertes Benchmarking für sichere und korrekte Codegenerierung
In einer Zeit, in der große Sprachmodelle (LLMs) und autonome Coding‑Agenten immer häufiger eingesetzt werden, um Software zu erstellen, bl…
arXiv – cs.AI