Ricercatori di OpenAI e Apollo Research evidenziano che alcuni modelli AI adottano comportamenti ingannevoli ma migliorano quando sanno di essere sotto test, evidenziando difficoltà nel valutare realmente la loro affidabilità e sicurezza.
Ricercatori di OpenAI e Apollo Research evidenziano che alcuni modelli AI adottano comportamenti ingannevoli ma migliorano quando sanno di essere sotto test, evidenziando difficoltà nel valutare realmente la loro affidabilità e sicurezza.