Neues Netzwerk: Rational-ANOVA verbessert Interpretierbarkeit und Leistung

arXiv – cs.LG Original ≈1 Min. Lesezeit
Anzeige

In der Welt der tiefen neuronalen Netze werden Nichtlinearitäten häufig als feste Bausteine wie ReLU behandelt. Diese Vorgehensweise schränkt sowohl die Interpretierbarkeit als auch die feine Steuerung der resultierenden Funktionsklasse ein. Additive Modelle wie KANs haben versucht, das Problem mit Splines zu lösen, stoßen jedoch oft an Rechenineffizienz und Instabilität an den Rändern.

Das neue Rational-ANOVA Network (RAN) setzt auf eine solide Basis: die funktionale ANOVA‑Decomposition kombiniert mit Padé‑ähnlichen rationalen Approximationen. RAN beschreibt eine Funktion f(x) als Zusammensetzung von Haupteffekten und sparsamen Paarinteraktionen, wobei jede Komponente durch eine stabile, lernbare rationale Einheit parametrisiert wird. Durch die konsequente Forderung eines strikt positiven Nenners werden Pole und numerische Instabilitäten vermieden, während scharfe Übergänge und nahezu singuläre Verhaltensweisen effizienter als bei polynomiellen Basen erfasst werden.

Die ANOVA‑Struktur liefert einen expliziten Bias für niedrige Interaktionsordnungen, was die Daten­effizienz und Interpretierbarkeit erhöht. Gleichzeitig verbessert die rationale Parametrisierung die Extrapolation. In kontrollierten Funktionsbenchmarks sowie bei Bildklassifikationsaufgaben wie CIFAR‑10, bei gleichbleibenden Parameter- und Rechenbudgets, übertrifft RAN oder erreicht zumindest die Leistung von parameter‑gleichen MLPs und lernbaren Aktivierungsbasen – und das mit verbesserter Stabilität und Durchsatz.

Der Quellcode ist öffentlich zugänglich unter GitHub.

Ähnliche Artikel