Un recente studio mostra che i Large Multimodal Models (LMM) sviluppano capacità di grounding visivo anche senza dati supervisionati. Attraverso l’approccio attend-and-segment e il modello DiffLMM, è possibile ottenere segmentazioni accurate migliorando le performance in compiti di visione-linguaggio senza addestramenti specifici.




