Effiziente Trainingspipeline für multimodale GUI-Agenten
In der Welt der grafischen Benutzeroberflächen (GUI) ist die Fähigkeit, Bildregionen anhand natürlicher Sprachabfragen zu lokalisieren, entscheidend für intelligente, reasoningfähige Agenten. Traditionell stützen sich v…