革命性AI语音模型Dia：两位本科生的创新奇迹

字数 1182，阅读大约需 6 分钟

两位本科生的AI语音模型革命：Nari Labs与Dia的创新故事

在人工智能领域，创新的火花往往来自最意想不到的地方。这一次，故事的主角是两位没有丰富AI经验的本科生，他们却在短短三个月内打造出了一款能够与Google的NotebookLM相媲美的AI语音模型——Dia。这一壮举不仅展示了他们的技术才华，也为合成语音工具市场注入了新的活力。

Nari Labs的诞生与愿景

Nari Labs，这个位于韩国的初创公司，由Toby Kim和他的联合创始人创立。受到NotebookLM的启发，他们希望创建一个能够提供更多声音控制和“脚本自由”的模型。于是，Dia应运而生。Dia模型拥有16亿参数，能够根据脚本生成对话，允许用户自定义说话者的语调，并插入诸如口吃、咳嗽、笑声等非语言线索。这些功能使得Dia在合成语音领域具备了独特的技术优势。

利用Google TPU Research Cloud进行模型训练

为了训练Dia模型，Nari Labs利用了Google的TPU Research Cloud计划，该计划为研究人员提供免费的TPU AI芯片访问权限。借助这一强大的计算资源，Nari Labs得以在短时间内完成模型的训练。Dia模型现已在AI开发平台Hugging Face和GitHub上提供，可以在大多数配备至少10GB VRAM的现代PC上运行。

Dia模型的技术优势与应用前景

Dia模型的16亿参数使其在语音生成方面表现出色。它能够生成随机声音，也可以根据描述克隆特定人的声音。在简短测试中，Dia通过Nari的网络演示表现出色，能够无缝地生成关于任何主题的双向对话。其声音质量与其他工具相比具有竞争力，而声音克隆功能也是该记者尝试过的最简单的之一。

合成语音工具市场的现状与未来趋势

合成语音工具市场正在迅速扩大，ElevenLabs是其中最大的参与者之一，但挑战者层出不穷，如PlayAI和Sesame等。投资者对这些工具的潜力充满信心。根据PitchBook的数据，去年开发语音AI技术的初创公司筹集了超过3.98亿美元的风险投资。

然而，像Dia这样的先进模型也带来了社会影响和挑战。由于缺乏安全措施，利用Dia制作虚假信息或诈骗录音将变得轻而易举。Nari Labs在其项目页面上 discourages滥用模型进行冒充、欺骗或其他非法活动，但表示对误用不负责任。此外，Nari Labs尚未披露用于训练Dia的数据来源，这引发了关于是否使用受版权保护内容的担忧。

# AI快讯 # AI语音

文章版权归作者所有，未经允许请勿转载。

暂无评论

暂无评论...