OpenAI发布gpt-4o-mini-tts和gpt-4o-transcribe：语音技术的新突破

字数 1472，阅读大约需 8 分钟

OpenAI新语音生成与转录模型：自动化系统的新篇章

OpenAI最近发布了两款引人注目的AI模型：gpt-4o-mini-tts和gpt-4o-transcribe，它们在语音生成和转录领域带来了显著的进步。这些模型不仅提升了自动化系统的能力，还为用户体验带来了深远的影响。

推动’Agent’概念发展

在OpenAI的愿景中，这些模型是其**“agentic”**战略的重要组成部分。所谓“agent”，即能够代表用户独立执行任务的自动化系统。OpenAI产品负责人Olivier Godement将这一概念形象地描述为能够与企业客户进行对话的聊天机器人。他预测，未来几个月内，我们将看到越来越多的“agent”涌现。而这些新模型的目标，正是帮助开发者和用户利用准确、可用且有用的“agent”。

gpt-4o-mini-tts：更细腻、真实的语音

gpt-4o-mini-tts是OpenAI推出的新款文本转语音模型。与前代模型相比，它不仅能生成更加细腻和真实的语音，还具备更强的可控性。开发者可以通过自然语言指令来指导模型的语音表达，例如“像疯狂科学家一样说话”或“用平静的声音，像正念老师一样”。这种灵活性使得模型能够适应不同的应用场景，提供更加丰富的用户体验。

在客户支持场景中，gpt-4o-mini-tts的情感表达能力尤为突出。当系统需要传达歉意等复杂情绪时，模型能够通过语音语调的变化来准确传达，从而提升用户的满意度。OpenAI的产品团队成员Jeff Harris强调，他们的信念是，开发者和用户不仅希望控制说什么，还希望控制如何说。

gpt-4o-transcribe：更精准的语音识别

在语音转录方面，OpenAI推出了gpt-4o-transcribe和gpt-4o-mini-transcribe两款模型。它们取代了之前广为使用的Whisper转录模型，并在多个方面实现了显著提升。新模型在处理口音和嘈杂环境下的语音时表现更为出色，这得益于它们在多样化、高质量音频数据集上的训练。

此外，新模型在减少虚构内容（hallucination）方面也取得了重要进展。Whisper模型曾因在转录过程中引入虚构的单词甚至段落而备受诟病，而gpt-4o-transcribe则大大降低了这种风险。Harris表示，确保模型的准确性对于提供可靠的语音体验至关重要，而准确性意味着模型能够精确地听到单词，而不会填充未听到的细节。

不过，模型的表现可能因语言而异。根据OpenAI的内部基准测试，gpt-4o-transcribe在转录印度-德拉维达语系（如泰米尔语、泰卢固语、马拉雅拉姆语和卡纳达语）时的单词错误率接近30%（满分120%）。这意味着在这些语言中，模型转录的每10个单词中，约有3个与人工转录结果不同。

不公开源代码的考量

与以往不同，OpenAI决定不公开其新转录模型的源代码。此前，该公司曾以MIT许可证的形式发布Whisper模型的商用版本。Harris解释说，gpt-4o-transcribe和gpt-4o-mini-transcribe的规模远大于Whisper，因此不适合公开发布。他指出，这些模型不是那种可以在笔记本电脑上本地运行的类型，就像Whisper一样。OpenAI希望在发布开源模型时保持谨慎，并确保模型能够满足特定需求。他们认为，终端用户设备是开源模型最有趣的应用场景之一。

对开源社区及终端用户设备的影响

OpenAI的这一决策可能对开源社区产生一定的影响。开源社区一直以来都受益于OpenAI的开放态度，而此次不公开源代码的决定可能会引发一些讨论。然而，从技术成熟度和模型规模的角度来看，OpenAI的考量也是可以理解的。

对于终端用户设备而言，虽然无法直接使用开源的gpt-4o-transcribe和gpt-4o-mini-transcribe模型，但他们仍然可以通过OpenAI的API来享受这些模型带来的好处。随着自动化系统和“agent”概念的不断发展，这些模型有望在各种应用场景中发挥重要作用，为用户带来更加智能、便捷的体验。

权威数据与行业报告的支持

根据OpenAI的内部基准测试结果，gpt-4o-transcribe在多种语言中的转录准确性都得到了显著提升。这些数据为新模型的优势提供了有力的支持。此外，行业报告也指出，随着AI技术的不断进步，语音生成和转录领域的需求正在迅速增长。新模型的发布有望满足这一需求，并推动整个行业的发展。

# AI快讯 # AI语音 # OpenAI

文章版权归作者所有，未经允许请勿转载。

暂无评论

暂无评论...