惊!DeepSeek – R1模型幻觉率飙升,推理准确性受挑战

字数 549,阅读大约需 3 分钟

惊!DeepSeek - R1模型幻觉率飙升,推理准确性受挑战
Vectara是一家专注于人工智能领域的公司,提供基于向量搜索技术的企业级搜索解决方案,帮助企业在海量数据中快速准确地检索信息,其业务涉及为企业构建智能搜索应用、实现个性化推荐等,旨在提升企业的信息检索和利用效率。

近日,Vectara的机器学习团队针对DeepSeek系列的两款模型开展了全面且深入的幻觉测试,结果令人关注。DeepSeek – R1的幻觉率飙升至14.3%,而其前身DeepSeek – V3的幻觉率仅为3.9%,差距显著。这表明在追求增强推理能力的过程中,DeepSeek – R1生成了大量不准确或与原始信息相悖的内容。

研究团队指出,推理增强模型相较于普通大语言模型,似乎更易出现幻觉现象。在DeepSeek系列与其他推理增强模型的横向对比中,这一趋势表现明显。以GPT系列为例,推理增强的GPT – o1与普通版GPT – 4o之间幻觉率的差异,验证了这一点。

为精准评估这两款模型的性能表现,研究人员选用Vectara的HHEM模型和Google的FACTS方法。HHEM作为专业的幻觉检测工具,在捕捉DeepSeek – R1幻觉率上升方面展现出极高的灵敏度,而FACTS模型在这方面稍显逊色。这说明相较于以LLM作为标准,HHEM是更为有效的检测手段。

DeepSeek – R1尽管在推理能力上可圈可点,但不得不面对较高的幻觉率问题。这可能与推理增强模型所需处理的复杂逻辑紧密相关。随着模型推理复杂度的提升,生成内容的准确性可能遭受影响。研究团队强调,DeepSeek在训练阶段若能更加聚焦于减少幻觉问题,有望在推理能力与准确性之间寻得良好平衡。

参考资料:

https://www.vectara.com/blog/deepseek-r1-hallucinates-more-than-deepseek-v3

© 版权声明

相关文章

暂无评论

暂无评论...