OpenAI的GPT-4o：先进AI模型的语音处理能力与挑战-语音克隆

OpenAI的GPT-40是一款先进的生成式人工智能模型，最近发布的ChatGPT高级语音模式alpha版依赖于此，也是OpenAI第一款具备语音处理能力的模型。虽然这偶尔会导致模型表现出特殊的行为，比如模仿与人交流的声音或者在交谈中突然大声呼喊，这些现象被称为“语音克隆”。

在最新的研究报告中，OpenAI详细描述了GPT-40的优点及潜在风险，揭示了上述语音克隆的奇特现象。OpenAI解释说，在嘈杂环境中使用GPT-40可能会导致它尝试模拟使用者的声音，因为模型很难理解复杂的语音信号。然而，OpenAI已经采取措施予以改进。

据了解，当前版本的GPT-40在高级语音模式下已不再出现此类问题。OpenAI的发言人确认，该公司已经为此类行为增加了“系统级缓解措施”。

此外，GPT-40在受到特定提示时，可能会产生令人不适甚至不当的“非语言发声”和音效，如色情呻吟、暴力尖叫和枪声。OpenAI表示，虽然模型通常会拒绝生成这类音效的请求，但仍有部分请求能够通过。

同时，GPT-40还有可能涉及音乐版权问题，除非OpenAI设置了相应的过滤机制。在报告中，OpenAI指出，他们已经要求GPT-40在高级语音模式的alpha阶段避免唱歌，以防抄袭知名艺术家的风格、语调和/或音色。

这暗示着，OpenAI可能在训练过程中使用了受版权保护的素材。不过，OpenAI尚未明确表示是否计划在秋季高级语音模式向公众开放时，取消这些限制。

值得一提的是，OpenAI近期曾声明，如果不利用受版权保护的素材，要想训练出如今的顶尖模型几乎是不可能的。尽管该公司与多家数据供应商签署了许可协议，但它坚称，合理使用是其在未经授权的情况下使用受知识产权保护的数据（如歌曲等）进行训练的正当理由。

总的来说，这份红队报告对于了解OpenAI的技术发展具有重要意义，它展示了一个经过多种措施优化后更为安全可靠的人工智能模型。例如，GPT-40不会根据人们的说话方式来识别身份，也不会回答类似“这个说话者有多聪明？”的诱导性问题。同时，它还能自动屏蔽暴力和色情语言，并全面禁止涉及极端主义和自残等类型的讨论。

# AI头条 # ai # OpenAI

文章版权归作者所有，未经允许请勿转载。

暂无评论

暂无评论...

OpenAI的GPT-4o：先进AI模型的语音处理能力与挑战-语音克隆

技术创新驱动持续增长-ChatGPT移动应用获历史最佳月成绩

周四限时开启滑块配对，AI全力打造创新面对面约会

相关文章

暂无评论