CRACQ: Mehrdimensionale Bewertung von maschinell generierten Texten

arXiv – cs.AI Original ≈1 Min. Lesezeit
Anzeige

Ein neues Forschungsprojekt namens CRACQ bietet einen umfassenden Rahmen zur automatisierten Bewertung von Texten, die von Maschinen erzeugt werden. Das System bewertet fünf zentrale Merkmale – Kohärenz, Strenge, Angemessenheit, Vollständigkeit und Qualität – und liefert damit ein detailliertes Bild der Textqualität.

CRACQ baut auf Erkenntnissen aus der automatisierten Aufsatzbewertung (AES) auf, geht jedoch weit über klassische Aufsätze hinaus und kann verschiedenste Textformen bewerten. Durch die Kombination von linguistischen, semantischen und strukturellen Signalen entsteht ein ganzheitliches Bewertungssystem, das sowohl globale als auch trait-spezifische Analysen ermöglicht.

Die Entwicklung erfolgte anhand von 500 synthetischen Förderanträgen, die als Trainingsdaten dienten. Anschließend wurde CRACQ mit einem LLM-basierten „Judge“ verglichen und in realen Anwendungen – sowohl bei starken als auch bei schwächeren Texten – getestet. Erste Ergebnisse zeigen, dass CRACQ stabilere und nachvollziehbarere Bewertungen auf Trait-Ebene liefert als reine LLM-Bewertungen, obwohl noch Herausforderungen hinsichtlich Zuverlässigkeit und Anwendungsbereich bestehen.

Ähnliche Artikel