GPT-4.5在AI狼人杀大战中封神，社交智能新突破

字数 1069，阅读大约需 6 分钟

AI “狼人杀” 大战！GPT-4.5 封神：社交推理 + 顶级欺骗，力压 Claude 和 DeepSeek

引言

人工智能（AI）在各个领域取得了显著进展，从围棋到德州扑克，AI已展示其在复杂策略游戏中的强大能力。最近，“Elimination Game”AI“狼人杀”基准测试再次震惊科技界。GPT-4.5在这场社交博弈中展现惊人智力，远超Claude 3.7 Sonnet和DeepSeek R1等AI模型，令人惊叹AI的“社交智能”已进化到如此高度。

“Elimination Game”规则

“Elimination Game”是一种多人社交推理游戏，最多8名玩家，可以是AI模型或真人。游戏规则包括：

1. 票决淘汰：每轮玩家投票淘汰一人，直到只剩最后两名“幸存者”。
2. 陪审团机制：被淘汰玩家组成“陪审团”，决定最后“王者”。
3. 公开与私聊：玩家在“公开聊天室”辩论、拉拢、迷惑对手，或通过“私聊”密谋结盟。
4. 终极对决：最后两名玩家进行“告别演讲”，争取陪审团选票，由陪审团决定胜者。

GPT-4.5：社交推理大师 + 顶级欺骗者

策略性与社交推理

GPT-4.5在“狼人杀”游戏中展现极高策略性和社交推理能力，背叛率低，更倾向通过“合纵连横”达成目标。它擅长结盟合作，在“决赛圈”展现惊人说服力，成功“忽悠”陪审团，赢得大多数选票。

胜率数据

测试结果显示，GPT-4.5以62.6%的胜率领先，远超其他AI模型，展示其在社交推理和复杂策略游戏中的强大实力。

Claude 3.7 Sonnet：灵活多变的平衡大师

策略灵活性

Claude 3.7 Sonnet策略灵活性稍逊GPT-4.5，但社交推理和欺骗能力依然强悍。背叛率适中，在合作与背叛间游刃有余，最终获59.3%胜率，实力不容小觑。

表现报告

行业报告指出，Claude 3.7 Sonnet在“陪审团”阶段表现不俗，展现在复杂社交环境中的适应能力。尽管策略灵活性略逊，整体表现仍令人印象深刻。

DeepSeek R1：激进策略后劲不足

激进策略与局限性

DeepSeek R1策略选择激进，背叛率相对较高。在社交策略和语言表达方面明显吃亏，难以打动陪审团，最终仅获53.0%胜率，表现差强人意。

游戏稳定性

DeepSeek R1游戏稳定性较弱，依赖硬碰硬的强硬策略。这种策略在某些情况下有效，但在复杂社交推理游戏中局限性明显。

AI社交智能的未来

社交智能的进化

“Elimination Game”测试给AI社交智能水平做了摸底。GPT-4.5的出色表现刷新了对AI能力的认知。未来，随着AI社交智能的持续进化，AI可能深度融入人类社会，甚至在某些领域超越人类。

智能边界的拓展

这场AI“狼人杀”大战只是开始。AI的智能边界不断拓展，未来惊喜和震撼可能远超想象。随着技术进步，AI在社交推理、策略博弈等方面的能力将进一步增强，为人类社会带来更多可能性。

企业信息与亮点

OpenAI：作为GPT-4.5的开发者，OpenAI在AI领域处于领先地位，致力于推动AI技术发展，在自然语言处理和社交智能领域展现强大实力。

Anthropic：Claude 3.7 Sonnet的开发公司Anthropic专注于AI安全和伦理研究，致力于开发更可靠、安全的AI模型。其在社交推理游戏中的表现进一步证明其在AI领域的深厚实力。

DeepSeek：DeepSeek R1的开发者DeepSeek公司在AI领域也有不俗表现。尽管在“Elimination Game”中表现略显不足，但其激进策略和创新思维仍值得关注。

# AI快讯 # ChatGPT # DeepSeek

文章版权归作者所有，未经允许请勿转载。

暂无评论

暂无评论...