Neues Benchmark-Framework Mind-ParaWorld bewertet Suchagenten in einer Parallelwelt
Die Integration von Web‑Suchtools hat die Leistungsfähigkeit von großen Sprachmodellen (LLMs) enorm erweitert, sodass sie jetzt offene, zeitkritische und seltene Aufgaben lösen können. Doch die Bewertung dieser sogenann…