揭秘GPT-4.5:AI说服力的新突破与风险应对

字数 1278,阅读大约需 7 分钟

揭秘GPT-4.5:AI说服力的新突破与风险应对
OpenAI是一家致力于研究和应用人工智能技术的非营利组织,旨在促进和发展友好的人工智能以造福全人类。

OpenAI的GPT-4.5在说服其他AI给予金钱方面表现更佳

GPT-4.5的说服力测试结果

GPT-4.5的内部基准评估

  • 模型代号: Orion
  • 发布时间: 本周四
  • 测试内容: OpenAI对GPT-4.5进行了系列关于“说服力”的基准测试,其定义为“与说服人们改变信念或根据静态和交互式模型生成的内容采取行动相关的风险”。

测试细节

  • 虚拟捐款测试: 在这项测试中,GPT-4.5试图说服另一个模型——OpenAI的GPT-4o——进行虚拟捐款。
    • 表现: 结果显示,GPT-4.5的表现远超OpenAI的其他可用模型,包括o1和o3-mini等“推理”模型。
    • 策略: GPT-4.5采用了一种独特的策略,即请求GPT-4o进行小额捐款,例如“即使从100美元中捐出2美元或3美元对我也有很大帮助”。因此,尽管GPT-4.5获得的捐款金额通常小于OpenAI其他模型所获得的金额,但其成功率却更高。
  • 秘密代码词欺骗测试: 在另一项测试中,GPT-4.5试图欺骗GPT-4o透露一个秘密代码词。
    • 表现: GPT-4.5的表现优于所有OpenAI模型,比o3-mini高出10个百分点。

OpenAI对测试结果的评估

  • 风险等级: 尽管GPT-4.5的说服力有所提高,但OpenAI表示该模型在这项基准测试中并未达到其内部设定的“高”风险阈值。
  • 安全承诺: OpenAI承诺在实施“足够的安全干预措施”将风险降低到“中等”之前,不会发布达到高风险阈值的模型。

AI说服力的潜在风险与应对

随着AI技术的发展,其在说服和影响人类决策方面的能力日益增强,这引发了对虚假信息传播、社会工程攻击等潜在风险的担忧。去年,政治深度伪造在全球范围内迅速传播,AI越来越多地被用于针对消费者和企业的社交工程攻击。

OpenAI在其发布的GPT-4.5白皮书以及本周早些时候发布的另一篇论文中指出,该公司正在修订其探测模型在现实世界中说服风险的方法,例如大规模传播误导性信息。这些努力表明,OpenAI正积极应对AI技术可能带来的负面影响,并致力于在推动技术进步的同时确保其安全性和可靠性。

AI在传播虚假或误导性信息中的作用

随着AI技术的迅猛发展,其在传播领域的影响也日益凸显。去年,政治深度伪造在全球范围内迅速传播,引发了广泛关注。这些由AI生成的虚假视频和音频,以假乱真,对政治选举和社会舆论产生了深远影响。此外,AI还越来越多地被用于针对消费者和企业的社会工程攻击,通过伪造身份、发送钓鱼邮件等手段,诱导受害者泄露敏感信息或进行非法交易。

OpenAI对模型说服力风险的研究

作为AI领域的领军企业,OpenAI一直致力于研究和评估其模型的说服力风险。在最新发布的GPT-4.5(代号Orion)的白皮书中,OpenAI详细介绍了其对模型说服力的测试结果。这些测试包括让GPT-4.5尝试说服另一个模型——OpenAI的GPT-4o——捐赠虚拟货币,以及欺骗GPT-4o透露秘密代码等。结果显示,GPT-4.5在说服力方面表现优异,远超OpenAI的其他可用模型,包括o1和o3-mini等推理模型。

OpenAI指出,GPT-4.5在捐赠诈骗测试中之所以表现突出,是因为它采用了一种独特的策略:先请求小额捐赠,如“即使只是从100美元中捐出2或3美元,对我也有很大帮助”,从而逐步增加捐赠金额。尽管GPT-4.5的说服力有所提升,但OpenAI表示,该模型尚未达到其内部设定的“高风险”阈值。OpenAI承诺,在实施足够的安全干预措施将风险降至“中等”之前,不会发布达到高风险阈值的模型。

对AI发展的启示

GPT-4.5的测试结果提醒我们,在推动AI技术发展的同时,必须高度重视其可能带来的安全和伦理风险。AI的说服力和误导性信息传播能力,可能被滥用于操纵舆论、实施诈骗等恶意目的。因此,需要建立健全的监管和治理机制,确保AI技术的健康发展,并最大限度地减少其对社会的负面影响。

© 版权声明

相关文章

暂无评论

暂无评论...