Stability AI与Arm合作，革新移动设备离线音频生成

字数 808，阅读大约需 5 分钟

Stability AI 与 Arm 合作，推出离线生成音频技术

Stability AI，以 Stable Diffusion 文本生成图像模型而闻名，近日与全球半导体巨头 Arm 展开合作，旨在将生成音频的人工智能能力引入移动设备。这一合作的亮点在于，Stable Audio Open 模型能够完全在 Arm CPU 上运行，用户可在设备上快速生成音效、音频样本和制作元素，且无需互联网连接。

移动设备上的离线音频生成

随着生成性人工智能在企业和专业创作者中的应用日益广泛，确保模型和工作流程在各个创造领域都能便捷使用显得尤为重要。这不仅能提升创作效率，更有助于将这些技术无缝整合进视觉媒体制作流程中。为满足不断增长的需求，Stability AI 致力于提高其模型在边缘设备上的运行效率。

在优化 Stable Audio Open 模型以适应移动设备的过程中，初始测试在一台 Arm CPU 设备上生成音频的时间达到了 240秒。然而，通过模型的蒸馏处理，并利用 Arm 的软件栈——特别是通过 XNNPack 的 KleidiAI 中的 int8矩阵乘法内核，Stability AI 成功将生成一个 11秒 音频片段的时间缩短至 8秒，效率提升了 30倍。

技术普及与未来展望

用户需使用一部兼容的移动设备才能体验这一功能。幸运的是，如今大多数智能手机都配备基于 Arm 架构 的 CPU，因此这一技术对各类用户而言都变得更加可及。未来，Stability AI 还计划将其在图像、视频和 3D 领域的所有模型都带到边缘设备，旨在彻底改变移动设备上的视觉媒体创作方式。

技术细节与优化

1. 模型蒸馏：通过减少模型参数和计算量，提高模型在移动设备上的运行效率。
2. Arm 软件栈优化：利用 Arm 提供的软件工具和库，如 XNNPack 和 KleidiAI，进行针对性的优化。
3. int8矩阵乘法内核：使用 8 位整数进行矩阵乘法运算，减少计算资源消耗，同时保持较高的计算精度。

数据与权威引用

根据 《2023年全球移动设备市场报告》，全球智能手机出货量中，超过 95% 的设备搭载了基于 Arm 架构 的 CPU。这一数据表明，Stability AI 与 Arm 的合作将使离线生成音频技术覆盖广泛的用户群体。

此外，根据 《生成性人工智能在创作领域的应用报告》，生成性人工智能技术在视觉媒体创作中的应用呈快速增长趋势。预计到 2025年，全球生成性人工智能在创作领域的市场规模将达到 100亿美元。

# AI快讯

文章版权归作者所有，未经允许请勿转载。

暂无评论

暂无评论...