惊！DeepSeek – R1模型幻觉率飙升，推理准确性受挑战

字数 549，阅读大约需 3 分钟

近日，Vectara的机器学习团队针对DeepSeek系列的两款模型开展了全面且深入的幻觉测试，结果令人关注。DeepSeek – R1的幻觉率飙升至14.3%，而其前身DeepSeek – V3的幻觉率仅为3.9%，差距显著。这表明在追求增强推理能力的过程中，DeepSeek – R1生成了大量不准确或与原始信息相悖的内容。

研究团队指出，推理增强模型相较于普通大语言模型，似乎更易出现幻觉现象。在DeepSeek系列与其他推理增强模型的横向对比中，这一趋势表现明显。以GPT系列为例，推理增强的GPT – o1与普通版GPT – 4o之间幻觉率的差异，验证了这一点。

为精准评估这两款模型的性能表现，研究人员选用Vectara的HHEM模型和Google的FACTS方法。HHEM作为专业的幻觉检测工具，在捕捉DeepSeek – R1幻觉率上升方面展现出极高的灵敏度，而FACTS模型在这方面稍显逊色。这说明相较于以LLM作为标准，HHEM是更为有效的检测手段。

DeepSeek – R1尽管在推理能力上可圈可点，但不得不面对较高的幻觉率问题。这可能与推理增强模型所需处理的复杂逻辑紧密相关。随着模型推理复杂度的提升，生成内容的准确性可能遭受影响。研究团队强调，DeepSeek在训练阶段若能更加聚焦于减少幻觉问题，有望在推理能力与准确性之间寻得良好平衡。

参考资料：

https://www.vectara.com/blog/deepseek-r1-hallucinates-more-than-deepseek-v3