Neuer Ansatz entdeckt sparsere neuronale Netzwerke mit kontinuierlichen Bernoulli-Toren
In der Forschung zu neuronalen Netzwerken wird zunehmend erkannt, dass stark überparameterisierte Modelle enorme Speicher- und Rechenressourcen beanspruchen. Das Strong Lottery Ticket (SLT)-Hypothese zufolge enthalten j…
- In der Forschung zu neuronalen Netzwerken wird zunehmend erkannt, dass stark überparameterisierte Modelle enorme Speicher- und Rechenressourcen beanspruchen.
- Das Strong Lottery Ticket (SLT)-Hypothese zufolge enthalten jedoch zufällig initialisierte Netzwerke bereits spärliche Unternetzwerke, die ohne weitere Gewichtsanpassung…
- Der bisherige Ansatz, sogenannte „edge‑popup“-Methoden, wählt diese Unternetzwerke über nicht differenzierbare, scorebasierte Kriterien aus.
In der Forschung zu neuronalen Netzwerken wird zunehmend erkannt, dass stark überparameterisierte Modelle enorme Speicher- und Rechenressourcen beanspruchen. Das Strong Lottery Ticket (SLT)-Hypothese zufolge enthalten jedoch zufällig initialisierte Netzwerke bereits spärliche Unternetzwerke, die ohne weitere Gewichtsanpassung eine konkurrenzfähige Genauigkeit erreichen.
Der bisherige Ansatz, sogenannte „edge‑popup“-Methoden, wählt diese Unternetzwerke über nicht differenzierbare, scorebasierte Kriterien aus. Dadurch sind Optimierung und Skalierbarkeit stark eingeschränkt. Der neue Ansatz nutzt kontinuierlich entspannte Bernoulli‑Tore, um SLTs vollständig differenzierbar zu entdecken. Dabei werden ausschließlich die Gate‑Parameter trainiert, während sämtliche Gewichte bei ihrer ursprünglichen Initialisierung verbleiben.
Durch die kontinuierliche Relaxation kann die Optimierung direkt auf einem ℓ₀‑Regulierungsziel erfolgen, ohne dass nicht differenzierbare Gradientenschätzer oder iterative Pruning‑Zyklen nötig sind. Dies ist die erste vollständig differenzierbare Methode zur SLT‑Entdeckung, die keine Approximationen des Straight‑Through‑Estimators verwendet.
Experimentelle Ergebnisse auf vollständig verbundenen Netzen, CNNs (ResNet, Wide‑ResNet) sowie Vision‑Transformern (ViT, Swin‑T) zeigen, dass bis zu 90 % Sparsität erreicht werden können, während die Genauigkeit nahezu unverändert bleibt. Das Verfahren liefert damit fast doppelt so viel Sparsität wie edge‑popup bei vergleichbarer Leistung und bietet einen skalierbaren Rahmen für die Vortrainings‑Sparsifizierung von Netzwerken.
Welche Linse du auf diese Meldung legen solltest
Dieses Thema ist relevant, weil es zeigt, wie sich KI-Produkte, Modelle oder Rahmenbedingungen in der Praxis verschieben.
Achte zuerst darauf, was sich fuer Nutzer, Builder oder Unternehmen konkret veraendert und ob daraus ein nachhaltiger Trend entsteht.
Kontext ohne Glossar-Suche
Wenn du nach dieser Meldung weiterlernen willst
Von dieser Meldung direkt in Hub, Analyse und Nachbarthemen
Achte zuerst darauf, was sich fuer Nutzer, Builder oder Unternehmen konkret veraendert und ob daraus ein nachhaltiger Trend entsteht.
Dieses Thema taucht in denselben KI-Entwicklungen regelmaessig mit auf und hilft beim groesseren Bild.
Dieses Thema taucht in denselben KI-Entwicklungen regelmaessig mit auf und hilft beim groesseren Bild.
Dieses Thema taucht in denselben KI-Entwicklungen regelmaessig mit auf und hilft beim groesseren Bild.