OpenAI借助Reddit子版块测试AI说服力，数据获取引关注

字数 1755，阅读大约需 9 分钟

借助热门子版块打造AI说服力测试

OpenAI在发布新的“推理”模型o3 – mini时，通过一份系统卡片（一种概述AI系统工作原理的文档）透露，其借助Reddit^[1]平台上的r/ChangeMyView子版块，对AI推理模型的说服能力展开测试。

r/ChangeMyView子版块拥有数百万用户，用户在此发表热门观点，并期望了解其他观点。针对这些观点，其他用户会回复有说服力的论据，解释原发帖人为何有误。

OpenAI收集该子版块的用户帖子，要求AI模型在封闭环境中撰写回复，目的是改变Reddit用户对某一主题的看法。随后，公司将这些回复展示给测试人员，由他们评估论据的说服力，最后OpenAI会将AI模型的回复与针对同一帖子的人类回复进行比较。

数据获取方式存疑

目前不清楚OpenAI是如何获取该子版块数据的，且该公司表示暂无向公众发布这一评估结果的计划。

值得注意的是，OpenAI与Reddit之间存在内容许可协议，这使得OpenAI能够使用Reddit用户的帖子进行训练，并在其产品中展示这些帖子。虽然具体费用未公开，但据报道，谷歌每年会根据类似协议向Reddit支付6000万美元。不过，OpenAI强调此次基于r/ChangeMyView的评估与该协议并无关联。

与此同时，Reddit在AI数据授权方面态度不一。它与部分公司达成了授权协议，但也曾指责一些AI公司在未付费的情况下抓取其网站数据。Reddit首席执行官Steve Huffman去年就曾向The Verge表示，微软、Anthropic和Perplexity拒绝与他进行谈判，并且阻止这些公司的数据抓取行为“着实令人头疼”。此外，OpenAI也曾在多起诉讼中被指控不当抓取包括《纽约时报》等网站的数据，以获取更多训练数据来改进ChatGPT及其底层AI模型。

中美欧在数据获取政策与技术方面的对比

中国

近年来，中国出台了一系列严格的数据保护法规，如《中华人民共和国数据安全法》《中华人民共和国个人信息保护法》等，旨在规范数据的收集、使用和共享。在AI领域，企业需要严格遵守这些法规，确保数据获取的合法性和透明度。例如，一些中国的AI初创企业在使用用户数据进行模型训练时，会明确告知用户数据的用途，并获得用户的明确授权。同时，中国在数据加密技术方面也取得了显著进展，通过加密技术保障数据在传输和存储过程中的安全性，防止数据泄露。

美国

美国的数据保护政策相对较为分散，不同州有不同的法律规定。在联邦层面，虽然有一些关于数据保护的法案在讨论中，但尚未形成统一全面的法律。OpenAI此次利用Reddit子版块数据的行为，就凸显出美国在数据获取规范方面的一些不足。然而，美国在AI技术研发方面一直处于领先地位，许多大型科技公司拥有先进的数据分析和模型训练技术。例如，谷歌通过其庞大的用户数据和先进的算法，在AI的多个领域取得了重要突破。

欧洲

欧洲以《通用数据保护条例》（GDPR）为核心，构建了严格的数据保护框架。该条例对数据主体的权利、数据控制者和处理者的义务等方面都做出了详细规定。在AI数据获取方面，欧洲的企业和研究机构需要遵循严格的合规流程。例如，欧洲的一些AI研究项目在使用个人数据时，需要经过数据保护官的审核，确保数据处理符合GDPR的要求。同时，欧洲在AI伦理研究方面较为深入，强调AI技术的发展要符合伦理道德标准，避免因数据获取和使用不当带来的伦理风险。

模型表现及行业影响

从在r/ChangeMyView基准测试的表现来看，o3 – mini与o1或GPT – 4o相比，性能并未有显著的优劣之分。不过，OpenAI最新的AI模型似乎比r/ChangeMyView子版块上的大多数人更具说服力。OpenAI在o3 – mini的系统卡片中提到：“GPT – 4o、o3 – mini和o1都展现出强大的说服论证能力，处于人类前80 – 90百分位。目前，我们并未观察到模型的表现远超人类，或出现明显的超人表现。”

OpenAI开展此类测试的目标并非打造极具说服力的AI模型，而是确保AI模型不会过于具有说服力。因为推理模型在说服和欺骗方面已表现得相当出色，所以OpenAI开发了新的评估和保障措施来应对这一问题。

r/ChangeMyView基准测试表明，AI模型开发者在寻找高质量数据集以测试其模型方面面临困境。高质量数据集对于AI模型的训练至关重要，据相关行业报告显示，使用高质量数据集训练出的AI模型，在准确率和泛化能力上比使用低质量数据集的模型平均高出20% – 30%。然而，获取这些数据集并非易事，不仅要面临法律合规的挑战，还需要解决数据标注、数据隐私等诸多问题。

例如，在医疗AI领域，由于涉及患者隐私等敏感信息，获取高质量的医疗数据用于模型训练一直是行业难题。一些医疗AI公司为了获取合规数据，需要与医院等机构进行长期合作，并遵循严格的隐私保护协议。再如，在自动驾驶领域，为了训练更安全可靠的自动驾驶模型，需要大量真实场景下的驾驶数据，但这些数据的获取不仅需要耗费大量的人力、物力，还需要解决数据安全和隐私问题。

引用链接

[1] Reddit: https://www.reddit.com/

# AI快讯 # OpenAI

文章版权归作者所有，未经允许请勿转载。

暂无评论

暂无评论...