ZyphraAI开源Zonos-TTS，开启语音技术新时代

字数 1020，阅读大约需 6 分钟

近日，在人工智能语音技术领域，ZyphraAI发布重大成果——多语言文本到语音（TTS）模型Zonos – TTS，其基于宽松的Apache2.0许可证开源，开发者个人与企业都能自由使用、修改和分发，为语音技术发展注入新活力。

实时语音克隆：免费且优质的创新体验

实时语音克隆功能是Zonos – TTS的一大亮点。语音克隆技术市场近年来增长迅猛，Zonos – TTS的实时语音克隆功能完全免费，为用户提供便利。此功能不仅免费，还支持高音频质量和情感控制。在制作有声读物、视频配音等场景中，用户可实时克隆目标语音，并精准控制语音情感，如从欢快到悲伤，从严肃到轻松，拓展了语音应用边界。例如在教育领域，教师能克隆自己声音，并依据不同教学内容赋予语音不同情感，提升学生学习兴趣与参与度。

多语言与强大训练数据的支撑

Zonos – TTS经过20万小时英语语音数据训练，庞大的数据量为其卓越性能奠定基础。在全球化背景下，多语言支持很重要。全球使用语言超7000种，互联网内容也多种语言呈现。Zonos – TTS支持多语言，满足不同地区、语言用户需求。以跨境电商行业为例，卖家为不同语言地区消费者提供产品介绍语音时，Zonos – TTS的多语言功能可让他们轻松实现，无需再找多种语言配音人员。这种多语言支持能力，使Zonos – TTS在全球有广泛应用前景。

灵活的部署方式与贴心的服务套餐

ZyphraAI为Zonos – TTS提供两种部署方式：本地部署和便捷的API服务。对数据安全和隐私要求高的企业或机构，可选择本地部署，将模型部署在自己服务器上，确保数据安全可控。初创企业或小型团队则适合API服务，能快速集成到应用程序中，降低开发成本和时间。在服务套餐方面，ZyphraAI考虑不同用户需求。普通用户每月可免费生成100分钟音频，满足个人创作者或小型项目一定使用需求。专业版用户可选择300分钟/5美元的套餐，超出部分按每分钟0.02美元计费。这种阶梯式收费模式，既照顾普通用户，又为大量语音生成需求的专业用户提供实惠选择。

高效的运行速度

根据ZyphraAI测试，在RTX4090显卡上，Zonos – TTS模型能以约2倍实时速度运行。在追求高效的时代，这样的运行速度意义重大。在实时语音交互场景，如与语音助手或智能客服交互时，快速的语音合成速度让用户几乎感受不到延迟，提升用户体验。从技术角度，如此高的运行效率得益于模型优化设计和对硬件资源的高效利用。这也使Zonos – TTS在面对大规模并发请求时，能保持稳定且快速的响应，为企业级应用提供有力保障。

音频前缀输入拓展应用场景

Zonos – TTS支持音频前缀输入，丰富了应用场景。例如在语音导航系统中，用户输入包含基本导航指令的音频前缀，结合实时生成的具体导航信息，让语音导航更自然流畅。在智能家居控制中，用户设置特定音频前缀，唤醒智能设备并下达一系列指令，提升操作便捷性和趣味性。

感兴趣的开发者和企业可通过地址[https://huggingface.co/Zyphra/Zonos – v0.1 – hybrid](https://huggingface.co/Zyphra/Zonos – v0.1 – hybrid)获取更多信息并体验。

# AI快讯 # AI语音

文章版权归作者所有，未经允许请勿转载。

暂无评论

暂无评论...