MolmoWeb-4B: Vision-gesteuerter Web-Agent mit multimodaler Logik & Aktionsvorhersage
In einem neuen Tutorial wird MolmoWeb vorgestellt, ein Open‑Source-Webagent von Ai2, der Webseiten direkt aus Screenshots versteht und interagiert – ganz ohne HTML‑ oder DOM‑Parsing. Die Anleitung führt Schritt für Schr…