RoboBench introduce un framework di valutazione per modelli AI multimodali (MLLM) usati come ‘cervelli incorporati’ in robot. Copre comprensione istruzioni, ragionamento percettivo, pianificazione, predizione di affordance e analisi di errori con scenari realistici. I test evidenziano limiti attuali come difficoltà in ragionamento spaziale-temporale e comprensione implicita, guidando lo sviluppo etico e regolato di AI in robotica.



