Neuer Benchmark Frontier-Eng misst KI-Agenten bei realen Ingenieuraufgaben
Die Wissenschaft der künstlichen Intelligenz erhält mit Frontier-Eng einen neuen Maßstab: Ein von Menschen verifizierter Benchmark, der KI-Agenten in der iterativen Optimierung von realen Ingenieurdesigns testet. Im Gegensatz zu bisherigen Tests, die meist auf binären Pass/Fail-Ergebnissen wie Code…