GISTBench: LLMs auf Herz und Nieren geprüft – Nutzerverständnis im Fokus
Mit dem neuen Benchmark GISTBench wird die Fähigkeit großer Sprachmodelle (LLMs) auf die Probe gestellt, Nutzer aus deren Interaktionshistorien in Empfehlungssystemen zu verstehen. Im Gegensatz zu herkömmlichen Benchmar…