Neuronale Bearbeitung ermöglicht präzise Werteausrichtung großer Sprachmodelle

arXiv – cs.LG Original ≈1 Min. Lesezeit
Anzeige

Mit dem wachsenden Einfluss großer Sprachmodelle (LLMs) auf menschliches Verhalten gewinnt die Ausrichtung dieser Systeme an menschlichen Werten zunehmend an Bedeutung. Traditionelle steuerebene-basierte Methoden stoßen dabei an Grenzen: Beim Versuch, einen bestimmten Wert zu fördern, werden häufig unbeabsichtigt weitere, nicht angestrebte Werte aktiviert. Dieses Phänomen wird als Value Leakage bezeichnet und misst, wie stark unerwünschte Werte während der Steuerung mit einfließen.

Um diese Problematik zu adressieren, wurde ein neues Konzept entwickelt, das auf neuronaler Ebene arbeitet. Das Neuronale Value Alignment (NeVA) identifiziert gezielt die wenigen Neuronen, die für die Relevanz eines bestimmten Wertes verantwortlich sind, und bearbeitet deren Aktivierung während der Inferenz. Dadurch lässt sich der gewünschte Wert präzise steuern, ohne dass das Modell neu trainiert oder Parameter geändert werden müssen.

Experimentelle Ergebnisse zeigen, dass NeVA die Ausrichtung auf das Zielwert deutlich verbessert und gleichzeitig die allgemeine Leistungsfähigkeit des Modells nur minimal beeinträchtigt. Besonders bemerkenswert ist die signifikante Reduktion des Value Leakage: Die verbleibenden unerwünschten Aktivierungen beschränken sich überwiegend auf semantisch verwandte Wertklassen, was die Interpretierbarkeit des Ansatzes weiter erhöht.

Insgesamt bietet NeVA einen kontrollierbaren und transparenten Mechanismus zur Werteausrichtung von LLMs, der sowohl die Genauigkeit der Zielwerte als auch die Stabilität der generellen Modellleistung optimiert.

Ähnliche Artikel