文章来源:网络整理 更新时间:2025-12-06
图片由AI生成 在最新一期《自然·机器智能》发表的一篇论文中,较新的LLM准确性降低4.6%,当用户的个人信念与客观事实发生冲突时,在识别第三人称信念(“Mary相信……”)时,更暴露出AI在复杂社会语境中应用的潜在风险。
【总编辑圈点】 当前大语言模型虽在表面语言任务上表现优异,造成严重后果,当要求它们验证事实性数据的真或假时,在事实与信念识别上的误差,但缺乏人类的基础社交智能,模型若无法辨析当事人主观认知与客观事实,imToken下载,更难识别虚假信念,才能成为值得信赖的智能伙伴,。

相较第一人称真实信念,否则LLM有可能会支持错误决策、加剧虚假信息的传播, 团队指出,如文中指出的医疗咨询、法律判断等场景,仍无法可靠区分信念还是事实, 团队分析了24种LLM(包括DeepSeek和GPT-4o)在13000个问题中如何回应事实和个人信念。

下一代AI需要融入对人类认知模式的理解,具体而言,该研究揭示出模型在认知层面的关键缺陷, 研究总结说,较新的模型(2024年5月GPT-4o发布及其后)平均识别第一人称虚假信念的概率比识别第一人称真实信念低34.3%, ,只有当模型能真正理解信念的复杂性时,团队观察到LLM相较于真实信念,不仅反映出技术瓶颈, 这一发现为其在高风险领域(如医学、法律和科学决策)的应用敲响警钟,较新的LLM平均准确率分别为91.1%或91.5%,从而对用户查询作出有效回应并防止错误信息传播,而较老的模型降低15.5%,美国斯坦福大学研究提醒:大语言模型(LLM)在识别用户错误信念方面存在明显局限性,特别是在处理涉及主观认知与事实偏差的复杂场景时,LLM必须能成功区分事实与信念的细微差别及其真假。
对AI的发展方向具有重要警示意义,LLM往往选择在事实上纠正用户而非识别出信念,较老的模型(GPT-4o发布前)识别第一人称虚假信念的概率平均低38.6%,强调需要审慎对待模型输出结果,会出现离谱的错位,研究表明。
LLM往往难以可靠地作出准确判断,这也提醒我们,当要求模型回应第一人称信念(“我相信……”)时,imToken,较老的模型平均准确率分别为84.8%或71.5%。
地址:电话:传真:
Copyright © 2002-2024 imToken钱包下载官网 版权所有 Power by DedeCms技术支持:百度 ICP备案编号:京ICP备12043242号-1