字数 1182,阅读大约需 6 分钟
两位本科生的AI语音模型革命:Nari Labs与Dia的创新故事
在人工智能领域,创新的火花往往来自最意想不到的地方。这一次,故事的主角是两位没有丰富AI经验的本科生,他们却在短短三个月内打造出了一款能够与Google的NotebookLM相媲美的AI语音模型——Dia。这一壮举不仅展示了他们的技术才华,也为合成语音工具市场注入了新的活力。
Nari Labs的诞生与愿景
Nari Labs,这个位于韩国的初创公司,由Toby Kim和他的联合创始人创立。受到NotebookLM的启发,他们希望创建一个能够提供更多声音控制和“脚本自由”的模型。于是,Dia应运而生。Dia模型拥有16亿参数,能够根据脚本生成对话,允许用户自定义说话者的语调,并插入诸如口吃、咳嗽、笑声等非语言线索。这些功能使得Dia在合成语音领域具备了独特的技术优势。
利用Google TPU Research Cloud进行模型训练
为了训练Dia模型,Nari Labs利用了Google的TPU Research Cloud计划,该计划为研究人员提供免费的TPU AI芯片访问权限。借助这一强大的计算资源,Nari Labs得以在短时间内完成模型的训练。Dia模型现已在AI开发平台Hugging Face和GitHub上提供,可以在大多数配备至少10GB VRAM的现代PC上运行。
Dia模型的技术优势与应用前景
Dia模型的16亿参数使其在语音生成方面表现出色。它能够生成随机声音,也可以根据描述克隆特定人的声音。在简短测试中,Dia通过Nari的网络演示表现出色,能够无缝地生成关于任何主题的双向对话。其声音质量与其他工具相比具有竞争力,而声音克隆功能也是该记者尝试过的最简单的之一。
合成语音工具市场的现状与未来趋势
合成语音工具市场正在迅速扩大,ElevenLabs是其中最大的参与者之一,但挑战者层出不穷,如PlayAI和Sesame等。投资者对这些工具的潜力充满信心。根据PitchBook的数据,去年开发语音AI技术的初创公司筹集了超过3.98亿美元的风险投资。
然而,像Dia这样的先进模型也带来了社会影响和挑战。由于缺乏安全措施,利用Dia制作虚假信息或诈骗录音将变得轻而易举。Nari Labs在其项目页面上 discourages滥用模型进行冒充、欺骗或其他非法活动,但表示对误用不负责任。此外,Nari Labs尚未披露用于训练Dia的数据来源,这引发了关于是否使用受版权保护内容的担忧。