Forschung
Erklärung, Verifikation und Ausrichtung semantischer Hierarchien in VLMs
Vision‑Language‑Modelle (VLMs) wie CLIP ermöglichen beeindruckende Bild‑Text‑Retrieval‑ und Zero‑Shot‑Klassifikationsfähigkeiten, doch die…
arXiv – cs.LG