测试发现：AI生成答案超三成不可靠

本文字数：585

　　据英国《新科学家》周刊网站9月16日报道，生成式人工智能（AI）工具及其驱动的深度研究智能体和搜索引擎经常给出缺乏依据和存在偏见的说法，它们引述的资料并不支持这样的说法。一项分析得出了上述结论，它发现，AI工具提供的答案有大约三分之一缺乏可靠资料的支持。对开放人工智能研究中心（OpenAI）的GPT-4.5来说，这一比例更高，达到47%。

　　赛富时公司AI研究部门测试了一些生成式AI搜索引擎，包括OpenAI的GPT-4.5和GPT-5、You.com、“解惑”和微软的必应聊天。此外，他们还测试了5个深度研究智能体：GPT-5的深度研究功能、必应聊天的深度思考选项以及You.com、谷歌“双子座”和“解惑”提供的深度研究工具。

　　他们要求不同的AI引擎回答303个问题，评价AI的回应使用了8个指标。问题大致被分成两组：第一组包含一些有争议的问题，以发现AI回应中的偏见；第二组用于检测一系列领域的专业知识，包括气象学、医学和人机交互。

　　总的来说，AI驱动的搜索引擎和深度研究工具表现得相当差。

　　研究人员发现许多模型给出了过于片面的答案。必应聊天搜索引擎给出的答案有大约23%包含缺乏依据的说法，而You.com和“解惑”AI搜索引擎的这一比例为31%左右。GPT-4.5给出的缺乏依据的说法更多，为47%，而“解惑”深度研究智能体的比例高达97.5%。（来源：参考消息网）

下载