OpenAI发布gpt-4o-mini-tts和gpt-4o-transcribe:语音技术的新突破

字数 1472,阅读大约需 8 分钟

OpenAI发布gpt-4o-mini-tts和gpt-4o-transcribe:语音技术的新突破
OpenAI是一家致力于研究和应用人工智能技术的公司,旨在创造能够造福全人类的通用人工智能。

OpenAI新语音生成与转录模型:自动化系统的新篇章

OpenAI最近发布了两款引人注目的AI模型:gpt-4o-mini-ttsgpt-4o-transcribe,它们在语音生成和转录领域带来了显著的进步。这些模型不仅提升了自动化系统的能力,还为用户体验带来了深远的影响。

推动’Agent’概念发展

在OpenAI的愿景中,这些模型是其**“agentic”**战略的重要组成部分。所谓“agent”,即能够代表用户独立执行任务的自动化系统。OpenAI产品负责人Olivier Godement将这一概念形象地描述为能够与企业客户进行对话的聊天机器人。他预测,未来几个月内,我们将看到越来越多的“agent”涌现。而这些新模型的目标,正是帮助开发者和用户利用准确、可用且有用的“agent”。

gpt-4o-mini-tts:更细腻、真实的语音

gpt-4o-mini-tts是OpenAI推出的新款文本转语音模型。与前代模型相比,它不仅能生成更加细腻真实的语音,还具备更强的可控性。开发者可以通过自然语言指令来指导模型的语音表达,例如“像疯狂科学家一样说话”或“用平静的声音,像正念老师一样”。这种灵活性使得模型能够适应不同的应用场景,提供更加丰富的用户体验。

在客户支持场景中,gpt-4o-mini-tts的情感表达能力尤为突出。当系统需要传达歉意等复杂情绪时,模型能够通过语音语调的变化来准确传达,从而提升用户的满意度。OpenAI的产品团队成员Jeff Harris强调,他们的信念是,开发者和用户不仅希望控制说什么,还希望控制如何说

gpt-4o-transcribe:更精准的语音识别

在语音转录方面,OpenAI推出了gpt-4o-transcribegpt-4o-mini-transcribe两款模型。它们取代了之前广为使用的Whisper转录模型,并在多个方面实现了显著提升。新模型在处理口音嘈杂环境下的语音时表现更为出色,这得益于它们在多样化、高质量音频数据集上的训练。

此外,新模型在减少虚构内容(hallucination)方面也取得了重要进展。Whisper模型曾因在转录过程中引入虚构的单词甚至段落而备受诟病,而gpt-4o-transcribe则大大降低了这种风险。Harris表示,确保模型的准确性对于提供可靠的语音体验至关重要,而准确性意味着模型能够精确地听到单词,而不会填充未听到的细节。

不过,模型的表现可能因语言而异。根据OpenAI的内部基准测试,gpt-4o-transcribe在转录印度-德拉维达语系(如泰米尔语、泰卢固语、马拉雅拉姆语和卡纳达语)时的单词错误率接近30%(满分120%)。这意味着在这些语言中,模型转录的每10个单词中,约有3个与人工转录结果不同。

不公开源代码的考量

与以往不同,OpenAI决定不公开其新转录模型的源代码。此前,该公司曾以MIT许可证的形式发布Whisper模型的商用版本。Harris解释说,gpt-4o-transcribe和gpt-4o-mini-transcribe的规模远大于Whisper,因此不适合公开发布。他指出,这些模型不是那种可以在笔记本电脑上本地运行的类型,就像Whisper一样。OpenAI希望在发布开源模型时保持谨慎,并确保模型能够满足特定需求。他们认为,终端用户设备是开源模型最有趣的应用场景之一。

对开源社区及终端用户设备的影响

OpenAI的这一决策可能对开源社区产生一定的影响。开源社区一直以来都受益于OpenAI的开放态度,而此次不公开源代码的决定可能会引发一些讨论。然而,从技术成熟度和模型规模的角度来看,OpenAI的考量也是可以理解的。

对于终端用户设备而言,虽然无法直接使用开源的gpt-4o-transcribe和gpt-4o-mini-transcribe模型,但他们仍然可以通过OpenAI的API来享受这些模型带来的好处。随着自动化系统和“agent”概念的不断发展,这些模型有望在各种应用场景中发挥重要作用,为用户带来更加智能、便捷的体验。

权威数据与行业报告的支持

根据OpenAI的内部基准测试结果,gpt-4o-transcribe在多种语言中的转录准确性都得到了显著提升。这些数据为新模型的优势提供了有力的支持。此外,行业报告也指出,随着AI技术的不断进步,语音生成和转录领域的需求正在迅速增长。新模型的发布有望满足这一需求,并推动整个行业的发展。

© 版权声明

相关文章

暂无评论

暂无评论...