Ganzkörperbasierte, egozentrische Videovorhersage

BAIR – Berkeley AI Research Blog Original ≈1 Min. Lesezeit
Anzeige

Ein neues Modell namens PEVA (Predicting Ego‑centric Video from human Actions) kann aus vergangenen Videoframes und einer Angabe zur gewünschten 3‑D‑Bewegung die nächste Bildsequenz vorhersagen. Durch die Kombination von visuellen Daten und konkreten Aktionsbeschreibungen erzeugt PEVA realistische Videos von atomaren Handlungen, simuliert Gegenfaktische Szenarien und ermöglicht die Generierung langer Videosequenzen.

In den letzten Jahren haben sich Weltmodelle stark weiterentwickelt – von intuitiver Physik bis hin zu mehrstufiger Videovorhersage. Dennoch sind nur wenige dieser Modelle für wirklich eingebettete Agenten ausgelegt. Ein echter Agent muss in der realen Welt handeln, über einen physisch fundierten Aktionsraum verfügen und in vielfältigen Alltagssituationen agieren. Dabei liefert die egozentrische Sicht einen Hinweis auf die Intention, verbirgt jedoch die eigentliche Körperbewegung.

Die Herausforderung liegt darin, dass Aktion und Bild stark kontextabhängig sind: dieselbe Ansicht kann zu unterschiedlichen Bewegungen führen und umgekehrt. Menschliche Steuerung ist hochdimensional und strukturiert – ein Ganzkörper bewegt sich über 48 Freiheitsgrade mit hierarchischen, zeitabhängigen Dynamiken. PEVA muss daher die Konsequenzen unsichtbarer physischer Handlungen aus der ersten‑Person‑Kamera ableiten.

Die Ergebnisse zeigen, dass PEVA mit nur dem ersten Frame und einer Aktionssequenz in der Lage ist, präzise Videos zu erzeugen, alternative Handlungsverläufe zu simulieren und längere Sequenzen zu generieren. Damit eröffnet das Modell neue Möglichkeiten für die Planung und Kontrolle von eingebetteten Agenten in realen, komplexen Umgebungen.

Ähnliche Artikel