Il nuovo modello usa una architettura a trasformatori con pesi sparsi per isolare circuiti interpretabili che guidano comportamenti specifici, come traduzioni o ragionamento. Questo approccio potrebbe rivoluzionare la sicurezza AI, permettendo di identificare e correggere errori alla radice, rispondendo alle richieste di regolamentazione e auditabilità.




