Neues 3D‑Vision‑Language-Modell löst komplexe Box‑Umarrangements in Echtzeit
Forscher haben ein neues System namens RAMP‑3D entwickelt, das natürliche Sprachziele in 3D‑Umgebungen umsetzt, ohne auf symbolische Planer zurückgreifen zu müssen. Durch die Kombination von RGB‑D‑Sicht und sprachlichen…