OpenAI的GPT-40是一款先进的生成式人工智能模型,最近发布的ChatGPT高级语音模式alpha版依赖于此,也是OpenAI第一款具备语音处理能力的模型。虽然这偶尔会导致模型表现出特殊的行为,比如模仿与人交流的声音或者在交谈中突然大声呼喊,这些现象被称为“语音克隆”。
在最新的研究报告中,OpenAI详细描述了GPT-40的优点及潜在风险,揭示了上述语音克隆的奇特现象。OpenAI解释说,在嘈杂环境中使用GPT-40可能会导致它尝试模拟使用者的声音,因为模型很难理解复杂的语音信号。然而,OpenAI已经采取措施予以改进。
据了解,当前版本的GPT-40在高级语音模式下已不再出现此类问题。OpenAI的发言人确认,该公司已经为此类行为增加了“系统级缓解措施”。
此外,GPT-40在受到特定提示时,可能会产生令人不适甚至不当的“非语言发声”和音效,如色情呻吟、暴力尖叫和枪声。OpenAI表示,虽然模型通常会拒绝生成这类音效的请求,但仍有部分请求能够通过。
同时,GPT-40还有可能涉及音乐版权问题,除非OpenAI设置了相应的过滤机制。在报告中,OpenAI指出,他们已经要求GPT-40在高级语音模式的alpha阶段避免唱歌,以防抄袭知名艺术家的风格、语调和/或音色。
这暗示着,OpenAI可能在训练过程中使用了受版权保护的素材。不过,OpenAI尚未明确表示是否计划在秋季高级语音模式向公众开放时,取消这些限制。
值得一提的是,OpenAI近期曾声明,如果不利用受版权保护的素材,要想训练出如今的顶尖模型几乎是不可能的。尽管该公司与多家数据供应商签署了许可协议,但它坚称,合理使用是其在未经授权的情况下使用受知识产权保护的数据(如歌曲等)进行训练的正当理由。
总的来说,这份红队报告对于了解OpenAI的技术发展具有重要意义,它展示了一个经过多种措施优化后更为安全可靠的人工智能模型。例如,GPT-40不会根据人们的说话方式来识别身份,也不会回答类似“这个说话者有多聪明?”的诱导性问题。同时,它还能自动屏蔽暴力和色情语言,并全面禁止涉及极端主义和自残等类型的讨论。