出门问问TicVoice 7.0：开启语音生成新时代

字数 1114，阅读大约需 6 分钟

出门问问发布TicVoice 7.0：引领语音生成技术新突破

出门问问（Mobvoi）于3月6日联合多家顶尖学术机构，共同开源新一代语音生成模型Spark-TTS，并推出其商业化高品质TTS引擎——TicVoice 7.0。作为出门问问第七代TTS引擎，TicVoice 7.0在语音生成领域实现了重大突破，开启了全新的语音生成范式。

TicVoice 7.0的核心优势在于其创新的语音编码方式和建模结构，即BiCodec编码技术。该技术将语音编码为互补的两部分：固定序列长度的Global Token和低码率的Semantic Tokens。

• Global Token：负责建模时序无关的全局特征，如音色。这种设计确保了语音生成的全局可控性，使音色更加稳定和一致。
• Semantic Tokens：以wav2vec2.0提取的特征为输入，编码与文本紧密相关的信息。这种设计确保了语义的强相关性，使语音生成更加准确和自然。

这种创新设计不仅解决了传统语音编码中存在的问题，还实现了语音token建模与文本token建模的高度统一，使语音生成更加高效且可控。

基于BiCodec编码技术的创新，TicVoice 7.0在语音克隆和情感表现力方面实现了突破性进展。

• 语音克隆：TicVoice 7.0能够在3秒内敏锐捕捉声纹特征，实现高度逼真的语音克隆。这意味着AI不仅能“说人话”，还能模仿特定人物的音色和语音风格。
• 情感表现力：TicVoice 7.0能够模仿人类的叹息、停顿等细微情感表达，使语音生成更具情感表现力和感染力。

相比上一代语音大模型，TicVoice 7.0在音色相似度、情感表现及稳定性上均有显著提升。国际通用MOS评分从3.9提升至4.2，表明其情感表现力更强，听感更自然、悦耳且稳定。

TicVoice 7.0在个性化定制方面也表现出色，为用户提供了丰富的定制选项。

• 声音风格调整：用户可以通过调整性别、语速、基频等多种属性，精准塑造独特的声音风格，以满足不同场景和需求。
• 至臻Pro-精品发音人定制：用户仅需提供20-200句语料，即可获得播音级专业配音体验。国际通用MOS评分从4.3提升至4.7，达到广播级水平，为影视、游戏等场景提供了专业级的语音生成解决方案。

TicVoice 7.0已在多个应用场景中落地，为用户提供了更好的服务和体验。

出门问问通过开源生态与产学研深度协同，推动语音生成技术的发展。他们联合香港科技大学、上海交通大学、南洋理工大学、西北工业大学等顶尖学术机构，共同开源新一代语音生成模型Spark-TTS，为行业发展注入了新动能。

TicVoice 7.0的发布，标志着语音生成技术进入了一个新的时代。其创新的BiCodec编码技术、卓越的语音克隆和情感表现力、丰富的个性化定制选项以及广泛的应用场景落地，为用户提供了更好的服务和体验，也为行业发展带来了新的机遇和挑战。

文章版权归作者所有，未经允许请勿转载。

暂无评论...