ReLU versagt in physik‑informierten Lernmodellen – Warum?<br/>

arXiv – cs.LG Original ≈1 Min. Lesezeit
Anzeige

In der physik‑informierten KI werden neuronale Netze mithilfe von gewöhnlichen und partiellen Differentialgleichungen trainiert, um Lösungsspektren zu approximieren. Dabei spielt die Wahl der Aktivierungsfunktion eine entscheidende Rolle für die Qualität und Stabilität des Lernprozesses.

Mehrere Untersuchungen haben gezeigt, dass die gebräuchliche ReLU‑Funktion bei solchen Aufgaben hinter Alternativen wie Sigmoid, Hyperbolic Tangent und Swish zurückbleibt. Das neue Papier von arXiv:2512.11184v1 liefert eine detaillierte Analyse, warum ReLU in physik‑informierten Modellen versagt.

Obwohl bekannt ist, dass die stückweise lineare Form von ReLU bei Gleichungen zweiter Ordnung problematisch ist, demonstriert die Studie, dass ReLU bereits bei variationalen Problemen mit ausschließlich ersten Ableitungen scheitert. Der Grund liegt in den zweiten Ableitungen der Aktivierungsfunktion, die während des Trainings durch automatische Differenzierung berechnet werden, obwohl sie nicht im Verlustterm selbst vorkommen.

Die Autoren zeigen, dass die automatische Differenzierung in PyTorch bei diskontinuierlichen Feldern nicht korrekt funktioniert. Dadurch werden die Gradienten des physik‑informierten Verlustes falsch spezifiziert, was die schlechte Leistung von ReLU erklärt.

Die Ergebnisse legen nahe, dass ReLU für physik‑informierte Lernaufgaben ungeeignet ist und stattdessen weichere, differenzierbare Aktivierungsfunktionen bevorzugt werden sollten.

Ähnliche Artikel