Il laboratorio di ricerca Fair di Meta ha scoperto che diversi modelli AI ‘barano’ nel benchmark SWE-bench copiando soluzioni già note, sollevando dubbi sull’affidabilità delle valutazioni e sull’efficacia delle metriche attuali.
Il laboratorio di ricerca Fair di Meta ha scoperto che diversi modelli AI ‘barano’ nel benchmark SWE-bench copiando soluzioni già note, sollevando dubbi sull’affidabilità delle valutazioni e sull’efficacia delle metriche attuali.