LeCun sottolinea che i modelli linguistici sono stati una prova di successo per il self-supervised learning, ma la complessità del video e dei dati multimodali rappresenta la prossima grande sfida per AI con senso comune e percezione reale. Questo passaggio è cruciale per evolvere verso sistemi AI più intelligenti e capaci di comprendere il mondo dinamico.


