LeWorldModel: Stabile End-to-End-JEPAs aus Pixeln

Kernaussagen

Das nimmst du aus dem Beitrag mit

In einer kürzlich veröffentlichten Arbeit präsentiert das Forschungsteam die LeWorldModel (LeWM), eine neue Joint Embedding Predictive Architecture (JEPA), die es ermögl…
Der Schlüssel liegt in der simplen Verluststruktur: LeWM nutzt lediglich zwei Loss‑Termine – einen Vorhersageverlust für das nächste Embedding und einen Regularisierer…
Dadurch sinkt die Anzahl der einstellbaren Hyperparameter von sechs auf einen, was die Implementierung deutlich vereinfacht.

In einer kürzlich veröffentlichten Arbeit präsentiert das Forschungsteam die LeWorldModel (LeWM), eine neue Joint Embedding Predictive Architecture (JEPA), die es ermöglicht, Weltmodelle direkt aus Rohpixeln zu lernen – ohne die üblichen Kompromisse bei Stabilität und Hyperparameter-Tuning.

Der Schlüssel liegt in der simplen Verluststruktur: LeWM nutzt lediglich zwei Loss‑Termine – einen Vorhersageverlust für das nächste Embedding und einen Regularisierer, der die latenten Embeddings zu einer Gaußschen Verteilung zwingt. Dadurch sinkt die Anzahl der einstellbaren Hyperparameter von sechs auf einen, was die Implementierung deutlich vereinfacht.

Mit rund 15 Millionen trainierbaren Parametern lässt sich LeWM auf einem einzelnen GPU in wenigen Stunden trainieren. Im Vergleich zu herkömmlichen, auf Basis‑Modellen aufgebauten Weltmodellen ist LeWM bis zu 48‑mal schneller, während es gleichzeitig konkurrenzfähige Leistungen in einer Vielzahl von 2‑D- und 3‑D‑Kontrollaufgaben erzielt.

Ein weiteres Highlight ist die physikalische Struktur des latenten Raums. Durch gezielte Probes von physikalischen Größen lässt sich zeigen, dass LeWM sinnvolle physikalische Informationen erfasst. In Surprise‑Evaluierungen erkennt das Modell zuverlässig physikalisch unmögliche Ereignisse, was die Zuverlässigkeit des Modells unterstreicht.

Einordnen in 60 Sekunden