SPARROW: Pixelgenaues Video-MLLM mit verbesserter räumlicher Präzision
Ein neues multimodales Sprachmodell namens SPARROW setzt neue Maßstäbe für die Analyse von Videos auf Pixelebene. Durch die Kombination von Target‑Specific Tracked Features (TSF) und einem dualen Prompt‑Design kann SPAR…