Neues Benchmark für Marketing‑Kreativität von LLMs: Keine klare Spitzenreiterin
Eine neue Studie aus dem arXiv‑Repository präsentiert den „Creativity Benchmark“, ein umfassendes Evaluationsframework für große Sprachmodelle (LLMs) im Bereich Marketing‑Kreativität. Das Benchmark‑Set umfasst 100 Marken aus 12 Kategorien und testet die Modelle mit drei Prompt‑Typen – Insights, Ideas und Wild Ideas.
Die Bewertung basiert auf 11.012 anonymisierten Vergleichen, die von 678 erfahrenen Kreativen durchgeführt wurden. Durch die Anwendung von Bradley‑Terry‑Modellen lässt sich die Leistung der Modelle präzise vergleichen. Die Ergebnisse zeigen, dass die Modelle sehr eng beieinander liegen: Der Unterschied zwischen dem besten und dem schlechtesten Modell beträgt nur etwa 0,45 Punkte, was einer Gewinnwahrscheinlichkeit von 61 % im direkten Vergleich entspricht.
Zusätzlich wurden die Modelle hinsichtlich ihrer Vielfalt analysiert, indem Kosinus‑Entfernungen zur Messung von Intra‑ und Inter‑Modell‑Variation verwendet wurden. Die Untersuchung der Sensitivität gegenüber Prompt‑Umformulierungen verdeutlicht, dass kleine Änderungen im Prompt die Ergebnisse stark beeinflussen können. Ein Vergleich von drei automatisierten LLM‑Judge‑Setups mit den menschlichen Rankings zeigte schwache und inkonsistente Korrelationen, was die Notwendigkeit von Experten‑Bewertungen unterstreicht.
Die Studie betont, dass herkömmliche Kreativitätstests nur teilweise auf markenkonforme Aufgaben übertragbar sind und dass ein diversitätsorientierter Ansatz in der Modellbewertung unerlässlich ist. Insgesamt verdeutlicht der „Creativity Benchmark“, dass menschliche Expertise und ein bewusster Umgang mit Modelldiversität entscheidend für die Bewertung von Marketing‑Kreativität sind.