LLMs im realen Verhaltenstest: Benchmark für lange Zeiträume und Szenarien
Die rasante Entwicklung großer Sprachmodelle (LLMs) hat das Potenzial eröffnet, einen universellen Benutzersimulator zu schaffen. Trotz dieser Fortschritte bleiben die bisherigen Benchmarks stark eingeschränkt: Sie besc…