Informationstheoretische Methode verbessert LGD‑Vorhersagen trotz Datenmischung
Die Modellierung des Loss‑Given‑Default (LGD) steht vor einer gravierenden Datenqualitätsherausforderung: 90 % der verfügbaren Trainingsdaten stammen aus Proxy‑Schätzungen, die auf Bilanzdaten vor der Zahlungsunfähigkeit beruhen, statt aus tatsächlichen Rückgewinnungsdaten abgeschlossener Insolvenzverfahren. Diese Mischung aus unterschiedlichen Messungen führt zu systematischen Fehlern bei herkömmlichen rekursiven Partitionierungsmethoden.
Ein klassisches Beispiel ist der Random‑Forest‑Ansatz, der auf Testdaten ein negatives R‑Quadrat von –0,664 erreichte – schlechter als die Vorhersage des Mittelwerts. Die Ursache liegt in der Verblendung der Trainingsdaten durch die Mischung von Proxy‑ und realen Beobachtungen.
Die Autoren wenden informationstheoretische Techniken an, die Shannon‑Entropie und gegenseitige Information nutzen. Mit diesen Methoden erzielen sie ein R‑Quadrat von 0,191 und einen RMSE von 0,284 auf 1 218 Unternehmensinsolvenzen aus dem Zeitraum 1980‑2023. Dabei liefern Leverage‑basierte Merkmale 1,510 Bits gegenseitiger Information, während Größenfaktoren lediglich 0,086 Bits beitragen – ein Ergebnis, das die regulatorischen Annahmen über skalenabhängige Rückgewinnungen in Frage stellt.
Die Studie liefert praxisnahe Empfehlungen für Finanzinstitute, die LGD‑Modelle im Rahmen von Basel‑III einsetzen, wenn repräsentative Ergebnisdaten nicht in ausreichendem Umfang vorliegen. Darüber hinaus zeigen die Ergebnisse, dass die Ansatzweise auf Informationstheorie auch in Bereichen wie medizinischer Ergebnisforschung, Klimaforschung und Technologiereliabilität wertvoll ist, wo lange Beobachtungszeiträume unvermeidliche Mischstrukturen in den Trainingsdaten erzeugen.