字数 808,阅读大约需 5 分钟

Stability AI 与 Arm 合作,推出离线生成音频技术
Stability AI,以 Stable Diffusion 文本生成图像模型而闻名,近日与全球半导体巨头 Arm 展开合作,旨在将生成音频的人工智能能力引入移动设备。这一合作的亮点在于,Stable Audio Open 模型能够完全在 Arm CPU 上运行,用户可在设备上快速生成音效、音频样本和制作元素,且无需互联网连接。
移动设备上的离线音频生成
随着生成性人工智能在企业和专业创作者中的应用日益广泛,确保模型和工作流程在各个创造领域都能便捷使用显得尤为重要。这不仅能提升创作效率,更有助于将这些技术无缝整合进视觉媒体制作流程中。为满足不断增长的需求,Stability AI 致力于提高其模型在边缘设备上的运行效率。
在优化 Stable Audio Open 模型以适应移动设备的过程中,初始测试在一台 Arm CPU 设备上生成音频的时间达到了 240秒。然而,通过模型的蒸馏处理,并利用 Arm 的软件栈——特别是通过 XNNPack 的 KleidiAI 中的 int8矩阵乘法内核,Stability AI 成功将生成一个 11秒 音频片段的时间缩短至 8秒,效率提升了 30倍。
技术普及与未来展望
用户需使用一部兼容的移动设备才能体验这一功能。幸运的是,如今大多数智能手机都配备基于 Arm 架构 的 CPU,因此这一技术对各类用户而言都变得更加可及。未来,Stability AI 还计划将其在图像、视频和 3D 领域的所有模型都带到边缘设备,旨在彻底改变移动设备上的视觉媒体创作方式。
技术细节与优化
- 1. 模型蒸馏:通过减少模型参数和计算量,提高模型在移动设备上的运行效率。
- 2. Arm 软件栈优化:利用 Arm 提供的软件工具和库,如 XNNPack 和 KleidiAI,进行针对性的优化。
- 3. int8矩阵乘法内核:使用 8 位整数进行矩阵乘法运算,减少计算资源消耗,同时保持较高的计算精度。
数据与权威引用
根据 《2023年全球移动设备市场报告》,全球智能手机出货量中,超过 95% 的设备搭载了基于 Arm 架构 的 CPU。这一数据表明,Stability AI 与 Arm 的合作将使离线生成音频技术覆盖广泛的用户群体。
此外,根据 《生成性人工智能在创作领域的应用报告》,生成性人工智能技术在视觉媒体创作中的应用呈快速增长趋势。预计到 2025年,全球生成性人工智能在创作领域的市场规模将达到 100亿美元。