LiveResearchBench introduce 100 compiti realistici e non ambigui che richiedono ricerche approfondite su fonti web attuali, valutati con DeepEval, che analizza copertura, accuratezza, coerenza, presentazione e associazione delle citazioni. La ricerca mette in luce come i sistemi oggi tendano a raccogliere informazioni senza produrre analisi approfondite, sottolineando la necessità di miglioramenti per una ricerca AI affidabile e incisiva.




