Can Your LLM Think Like a Professional? Introducing ProfBench
Anzeige
Ähnliche Artikel
arXiv – cs.AI
•
Neues Benchmark SoMe bewertet LLM-basierte Social‑Media‑Agenten
arXiv – cs.LG
•
Klein, aber oho: GPT‑OSS 20B dominiert Finanz‑LLM‑Benchmark
arXiv – cs.AI
•
Strukturierte Suche nach Multi-Agenten-Systemen übertrifft LLM-basierte Ansätze
arXiv – cs.LG
•
Neue Benchmarks für Sprachmodelle neu gedacht: Fokus auf wissenschaftlichen Fortschritt
arXiv – cs.AI
•
RL-MTJail: KI‑Modelle durch Multi‑Turn‑Jailbreaking gefährden Sicherheit
arXiv – cs.LG
•
Roblox Guard 1.0: Neues LLM-Modell mit robusten Moderations-Guardrails