字数 549,阅读大约需 3 分钟
近日,Vectara的机器学习团队针对DeepSeek系列的两款模型开展了全面且深入的幻觉测试,结果令人关注。DeepSeek – R1的幻觉率飙升至14.3%,而其前身DeepSeek – V3的幻觉率仅为3.9%,差距显著。这表明在追求增强推理能力的过程中,DeepSeek – R1生成了大量不准确或与原始信息相悖的内容。
研究团队指出,推理增强模型相较于普通大语言模型,似乎更易出现幻觉现象。在DeepSeek系列与其他推理增强模型的横向对比中,这一趋势表现明显。以GPT系列为例,推理增强的GPT – o1与普通版GPT – 4o之间幻觉率的差异,验证了这一点。
为精准评估这两款模型的性能表现,研究人员选用Vectara的HHEM模型和Google的FACTS方法。HHEM作为专业的幻觉检测工具,在捕捉DeepSeek – R1幻觉率上升方面展现出极高的灵敏度,而FACTS模型在这方面稍显逊色。这说明相较于以LLM作为标准,HHEM是更为有效的检测手段。
DeepSeek – R1尽管在推理能力上可圈可点,但不得不面对较高的幻觉率问题。这可能与推理增强模型所需处理的复杂逻辑紧密相关。随着模型推理复杂度的提升,生成内容的准确性可能遭受影响。研究团队强调,DeepSeek在训练阶段若能更加聚焦于减少幻觉问题,有望在推理能力与准确性之间寻得良好平衡。
参考资料:
https://www.vectara.com/blog/deepseek-r1-hallucinates-more-than-deepseek-v3
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...