Neues Benchmark SoMe bewertet LLM-basierte Social‑Media‑Agenten

arXiv – cs.AI Original ≈1 Min. Lesezeit
Anzeige

Intelligente Agenten, die auf großen Sprachmodellen (LLMs) basieren, haben in den letzten Monaten auf Social‑Media‑Plattformen beeindruckende Leistungen gezeigt. Trotz dieser Fortschritte fehlt bislang ein umfassendes Verfahren, um ihre Fähigkeit zu prüfen, Medieninhalte zu verstehen, Nutzerverhalten zu analysieren und komplexe Entscheidungen zu treffen.

Um diese Lücke zu schließen, wurde das Benchmark „SoMe“ entwickelt. Es bietet einen realistischen Testrahmen für LLM‑basierte Social‑Media‑Agenten, die mit verschiedenen Werkzeugen ausgestattet sind, um Daten aus sozialen Netzwerken zuzugreifen und auszuwerten.

SoMe umfasst acht unterschiedliche Aufgaben, über 9,1 Millionen Beiträge, 6 591 Nutzerprofile und 25 686 Berichte von diversen Plattformen sowie externen Webseiten. Insgesamt wurden 17 869 Aufgabenabfragen sorgfältig annotiert, was das Benchmark zu einer der umfangreichsten und vielseitigsten Ressourcen in diesem Bereich macht.

Durch umfangreiche quantitative und qualitative Analysen liefert SoMe erstmals einen Überblick über die Leistungsfähigkeit gängiger Agenten‑LLMs in realen Social‑Media‑Umgebungen. Die Ergebnisse zeigen, dass sowohl aktuelle Closed‑Source‑ als auch Open‑Source‑Modelle die Aufgaben bislang nicht zufriedenstellend bewältigen können.

SoMe stellt damit ein anspruchsvolles, aber sinnvolles Testfeld für die Weiterentwicklung zukünftiger Social‑Media‑Agenten dar. Der zugehörige Code und die Daten sind frei verfügbar unter https://github.com/LivXue/SoMe.

Ähnliche Artikel