Process Reward Models sind anfällig: Neue Studie deckt Schwachstellen auf
In einer kürzlich veröffentlichten Arbeit auf arXiv wird gezeigt, dass Process Reward Models (PRMs), die zunehmend als Kernkomponente in LLM‑Reasoning‑Pipelines eingesetzt werden, systematisch von Angreifern ausgenutzt…