出门问问TicVoice 7.0:开启语音生成新时代

字数 1114,阅读大约需 6 分钟

出门问问TicVoice 7.0:开启语音生成新时代
出门问问(Mobvoi)是一家专注于语音交互技术的人工智能公司,致力于通过其创新的解决方案为用户提供更好的服务和体验。

出门问问发布TicVoice 7.0:引领语音生成技术新突破

出门问问(Mobvoi)于3月6日联合多家顶尖学术机构,共同开源新一代语音生成模型Spark-TTS,并推出其商业化高品质TTS引擎——TicVoice 7.0。作为出门问问第七代TTS引擎,TicVoice 7.0在语音生成领域实现了重大突破,开启了全新的语音生成范式。

BiCodec编码技术:语音生成的革新

TicVoice 7.0的核心优势在于其创新的语音编码方式和建模结构,即BiCodec编码技术。该技术将语音编码为互补的两部分:固定序列长度的Global Token和低码率的Semantic Tokens。

  • Global Token:负责建模时序无关的全局特征,如音色。这种设计确保了语音生成的全局可控性,使音色更加稳定和一致。
  • Semantic Tokens:以wav2vec2.0提取的特征为输入,编码与文本紧密相关的信息。这种设计确保了语义的强相关性,使语音生成更加准确和自然。

这种创新设计不仅解决了传统语音编码中存在的问题,还实现了语音token建模与文本token建模的高度统一,使语音生成更加高效且可控。

语音克隆与情感表现力的突破

基于BiCodec编码技术的创新,TicVoice 7.0在语音克隆和情感表现力方面实现了突破性进展。

  • 语音克隆:TicVoice 7.0能够在3秒内敏锐捕捉声纹特征,实现高度逼真的语音克隆。这意味着AI不仅能“说人话”,还能模仿特定人物的音色和语音风格。
  • 情感表现力:TicVoice 7.0能够模仿人类的叹息、停顿等细微情感表达,使语音生成更具情感表现力和感染力。

相比上一代语音大模型,TicVoice 7.0在音色相似度、情感表现及稳定性上均有显著提升。国际通用MOS评分从3.9提升至4.2,表明其情感表现力更强,听感更自然、悦耳且稳定。

个性化定制的卓越表现

TicVoice 7.0在个性化定制方面也表现出色,为用户提供了丰富的定制选项。

  • 声音风格调整:用户可以通过调整性别、语速、基频等多种属性,精准塑造独特的声音风格,以满足不同场景和需求。
  • 至臻Pro-精品发音人定制:用户仅需提供20-200句语料,即可获得播音级专业配音体验。国际通用MOS评分从4.3提升至4.7,达到广播级水平,为影视、游戏等场景提供了专业级的语音生成解决方案。

应用场景的广泛落地

TicVoice 7.0已在多个应用场景中落地,为用户提供了更好的服务和体验。

  • 客服:提供更自然、更人性化的语音交互体验,提升客户满意度。
  • 有声书:为用户提供更丰富、更多样的有声内容,满足不同口味和需求。
  • 情感直播:为主播提供更真实、更动人的情感表达工具,增强直播效果和观众互动。
  • 影视解说:为影视作品提供更专业、更个性化的解说服务,提升观众观影体验。

开源生态与产学研深度协同

出门问问通过开源生态与产学研深度协同,推动语音生成技术的发展。他们联合香港科技大学、上海交通大学、南洋理工大学、西北工业大学等顶尖学术机构,共同开源新一代语音生成模型Spark-TTS,为行业发展注入了新动能。

TicVoice 7.0的发布,标志着语音生成技术进入了一个新的时代。其创新的BiCodec编码技术、卓越的语音克隆和情感表现力、丰富的个性化定制选项以及广泛的应用场景落地,为用户提供了更好的服务和体验,也为行业发展带来了新的机遇和挑战。

© 版权声明

相关文章

暂无评论

暂无评论...