字数 1114,阅读大约需 6 分钟

出门问问发布TicVoice 7.0:引领语音生成技术新突破
出门问问(Mobvoi)于3月6日联合多家顶尖学术机构,共同开源新一代语音生成模型Spark-TTS,并推出其商业化高品质TTS引擎——TicVoice 7.0。作为出门问问第七代TTS引擎,TicVoice 7.0在语音生成领域实现了重大突破,开启了全新的语音生成范式。
BiCodec编码技术:语音生成的革新
TicVoice 7.0的核心优势在于其创新的语音编码方式和建模结构,即BiCodec编码技术。该技术将语音编码为互补的两部分:固定序列长度的Global Token和低码率的Semantic Tokens。
- • Global Token:负责建模时序无关的全局特征,如音色。这种设计确保了语音生成的全局可控性,使音色更加稳定和一致。
- • Semantic Tokens:以wav2vec2.0提取的特征为输入,编码与文本紧密相关的信息。这种设计确保了语义的强相关性,使语音生成更加准确和自然。
这种创新设计不仅解决了传统语音编码中存在的问题,还实现了语音token建模与文本token建模的高度统一,使语音生成更加高效且可控。
语音克隆与情感表现力的突破
基于BiCodec编码技术的创新,TicVoice 7.0在语音克隆和情感表现力方面实现了突破性进展。
- • 语音克隆:TicVoice 7.0能够在3秒内敏锐捕捉声纹特征,实现高度逼真的语音克隆。这意味着AI不仅能“说人话”,还能模仿特定人物的音色和语音风格。
- • 情感表现力:TicVoice 7.0能够模仿人类的叹息、停顿等细微情感表达,使语音生成更具情感表现力和感染力。
相比上一代语音大模型,TicVoice 7.0在音色相似度、情感表现及稳定性上均有显著提升。国际通用MOS评分从3.9提升至4.2,表明其情感表现力更强,听感更自然、悦耳且稳定。
个性化定制的卓越表现
TicVoice 7.0在个性化定制方面也表现出色,为用户提供了丰富的定制选项。
- • 声音风格调整:用户可以通过调整性别、语速、基频等多种属性,精准塑造独特的声音风格,以满足不同场景和需求。
- • 至臻Pro-精品发音人定制:用户仅需提供20-200句语料,即可获得播音级专业配音体验。国际通用MOS评分从4.3提升至4.7,达到广播级水平,为影视、游戏等场景提供了专业级的语音生成解决方案。
应用场景的广泛落地
TicVoice 7.0已在多个应用场景中落地,为用户提供了更好的服务和体验。
- • 客服:提供更自然、更人性化的语音交互体验,提升客户满意度。
- • 有声书:为用户提供更丰富、更多样的有声内容,满足不同口味和需求。
- • 情感直播:为主播提供更真实、更动人的情感表达工具,增强直播效果和观众互动。
- • 影视解说:为影视作品提供更专业、更个性化的解说服务,提升观众观影体验。
开源生态与产学研深度协同
出门问问通过开源生态与产学研深度协同,推动语音生成技术的发展。他们联合香港科技大学、上海交通大学、南洋理工大学、西北工业大学等顶尖学术机构,共同开源新一代语音生成模型Spark-TTS,为行业发展注入了新动能。
TicVoice 7.0的发布,标志着语音生成技术进入了一个新的时代。其创新的BiCodec编码技术、卓越的语音克隆和情感表现力、丰富的个性化定制选项以及广泛的应用场景落地,为用户提供了更好的服务和体验,也为行业发展带来了新的机遇和挑战。