Forschung arXiv – cs.AI

LLM als Richter: Skalierbare Sicherheitsprüfung für psychotische Nutzer

Large Language Models (LLMs) werden zunehmend als Hilfsmittel für psychische Gesundheit eingesetzt. Doch gerade bei Menschen mit Psychose birgt die häufige Nutzung erhebliche Gefahren, da die Modelle Delusionen und Hall…

06.04.2026 04:00 • ≈1 Min. Lesezeit • Originalquelle

#Large Language Models #Psychische Gesundheit #Psychose #Delusionen #Halluzinationen #Sicherheitskriterien #LLM-as-a-Judge

Kernaussagen

Das nimmst du aus dem Beitrag mit

Large Language Models (LLMs) werden zunehmend als Hilfsmittel für psychische Gesundheit eingesetzt.
Doch gerade bei Menschen mit Psychose birgt die häufige Nutzung erhebliche Gefahren, da die Modelle Delusionen und Halluzinationen verstärken können.
Um diese Risiken systematisch zu bewerten, hat ein neues Forschungsprojekt sieben klinisch fundierte Sicherheitskriterien entwickelt, einen konsensbasierten Datensatz er…

Um diese Risiken systematisch zu bewerten, hat ein neues Forschungsprojekt sieben klinisch fundierte Sicherheitskriterien entwickelt, einen konsensbasierten Datensatz erstellt und die Leistungsfähigkeit von LLMs als automatisierte Prüfer – „LLM-as-a-Judge“ – sowie als Mehrheitsentscheidungsmechanismus – „LLM-as-a-Jury“ – getestet.

Die Ergebnisse zeigen, dass ein einzelner LLM als Richter die menschliche Konsensmeinung sehr gut nachahmt: Cohen‑Kappa zwischen menschlicher Bewertung und Gemini beträgt 0,75, bei Qwen 0,68 und bei Kimi 0,56. Der beste einzelne Richter übertrifft sogar die Jury (Kappa 0,74). Diese Übereinstimmung unterstreicht die Zuverlässigkeit von LLMs als objektive Prüfer.

Die Studie liefert damit einen vielversprechenden Ansatz für skalierbare, klinisch validierte Sicherheitsprüfungen von LLM‑Antworten in psychischen Gesundheitsanwendungen. Sie legt den Grundstein für robuste, automatisierte Kontrollen, die den sicheren Einsatz von KI im Gesundheitsbereich fördern können.

Einordnen in 60 Sekunden

Welche Linse du auf diese Meldung legen solltest

LLMs sind Sprachmodelle, die Text verstehen, erzeugen und in Produkte eingebettet werden.

Achte zuerst auf Modellqualitaet, Kosten pro Nutzung und darauf, ob echte Produktverbesserungen oder nur Benchmarks kommuniziert werden.

Welches konkrete Problem loest das Modell besser als bisher?

Was bedeutet die Neuerung fuer Geschwindigkeit, Kosten oder Zuverlaessigkeit?

Was veraendert sich praktisch?

Begriffe zum Einordnen

Kontext ohne Glossar-Suche

Large Language Models

LLMs sind Sprachmodelle, die Text verstehen, erzeugen und in Produkte eingebettet werden.

Psychische Gesundheit

Dieses Thema ist relevant, weil es zeigt, wie sich KI-Produkte, Modelle oder Rahmenbedingungen in der Praxis verschieben.

Psychose

Dieses Thema ist relevant, weil es zeigt, wie sich KI-Produkte, Modelle oder Rahmenbedingungen in der Praxis verschieben.

arXiv – cs.AI

Diese Quelle setzt den Ausgangspunkt fuer die Meldung. Pruefe immer, ob sie eher Forschung, Produktmarketing oder Praxisperspektive liefert.

Lernpfad

Wenn du nach dieser Meldung weiterlernen willst

Themen-Hub

Large Language Models systematisch verfolgen

Achte zuerst auf Modellqualitaet, Kosten pro Nutzung und darauf, ob echte Produktverbesserungen oder nur Benchmarks kommuniziert werden.

Archiv

Weitere Beispiele zu Large Language Models

Nutze das Archiv, um Muster, Wiederholungen und Trendlinien innerhalb des Themas zu sehen.

Im Themen-Cluster weiter

Von dieser Meldung direkt in Hub, Analyse und Nachbarthemen

Themen-Hub

Large Language Models

Achte zuerst auf Modellqualitaet, Kosten pro Nutzung und darauf, ob echte Produktverbesserungen oder nur Benchmarks kommuniziert werden.

11 Signale in 7 Tagen • 226 Artikel im Hub

Hub oeffnen →

Nachbar-Hub

Reinforcement Learning

Dieses Thema taucht in denselben KI-Entwicklungen regelmaessig mit auf und hilft beim groesseren Bild.

28 gemeinsame Signale

Nachbar-Hub

Künstliche Intelligenz

Dieses Thema taucht in denselben KI-Entwicklungen regelmaessig mit auf und hilft beim groesseren Bild.

13 gemeinsame Signale

Nachbar-Hub

arXiv

Dieses Thema taucht in denselben KI-Entwicklungen regelmaessig mit auf und hilft beim groesseren Bild.

8 gemeinsame Signale

Naechste Schritte

Aehnliche Entwicklungen zum Weiterlesen

arXiv – cs.LG

Reward‑Design als Schlüssel zur zuverlässigen LLM‑Logik

11.02.2026 05:00

arXiv – cs.AI

KI-gestützte Annotation-Pipelines stabilisieren große Sprachmodelle

17.12.2025 05:00

MarkTechPost

LLMs halluzinieren: Warum und wie Bewertungssysteme das Problem verstärken

07.09.2025 05:56

arXiv – cs.AI

LLM‑Sicherheitsplanung: Halluzinationen reduziert, Reaktionszeit verkürzt

06.02.2026 05:00

arXiv – cs.AI

UCPO: Neue Methode reduziert Halluzinationen in Sprachmodellen

02.02.2026 05:00

arXiv – cs.LG

Personalisierter Router: Graphbasierte LLM-Auswahl nach Nutzerpräferenzen

24.11.2025 05:00

Warum das wichtig ist

Relevant fuer Leserinnen und Leser, die KI nicht nur verfolgen, sondern einordnen wollen: Der Beitrag zeigt, was sich bei Large Language Models, Psychische Gesundheit konkret verschiebt und welche Folgen das fuer Nutzung, Produkte oder Entscheidungen haben kann. Ausgangspunkt ist die Quelle arXiv – cs.AI.

Quellenklarheit

Quelle: arXiv – cs.AI
Original: Zum Ursprungsbeitrag
Website: arXiv – cs.AI

Themenradar

Themen folgen

Large Language Models

Psychische Gesundheit

Psychose

Delusionen

Morning Briefing

Diese Themen im Briefing verfolgen

Wenn dich genau diese Themen wieder interessieren werden, mach daraus einen festen Morgen-Slot statt einzelner Zufallsklicks.

Briefing mit Fokus konfigurieren →

Welche Linse du auf diese Meldung legen solltest

Kontext ohne Glossar-Suche

Wenn du nach dieser Meldung weiterlernen willst

Von dieser Meldung direkt in Hub, Analyse und Nachbarthemen

Aehnliche Entwicklungen zum Weiterlesen

🍪 Cookie-Einstellungen