微软Phi-4模型：革新语音、视觉、文本处理的多模态解决方案

字数 678，阅读大约需 4 分钟

微软发布 Phi-4 多模态与迷你模型，语音视觉文本处理再升级

Phi-4多模态模型：语音、视觉、文本处理的统一架构

微软最新推出的Phi-4多模态模型，集成了语音、视觉和文本处理的统一架构，拥有5600万参数，在人工智能领域实现了重大突破。

在自动语音识别（ASR）和语音翻译（ST）任务中，Phi-4多模态模型表现卓越，以6.14%的词错误率位居Hugging Face OpenASR排行榜首位，击败了WhisperV3和SeamlessM4T-v2-Large等专业语音模型，彰显了微软在语音处理技术方面的领先地位。

此外，Phi-4多模态模型在视觉处理方面也展现出色性能。它能够有效理解文档、图表，并执行光学字符识别（OCR）。与Gemini-2-Flash-lite-preview和Claude-3.5-Sonnet等流行模型相比，Phi-4多模态模型的表现不相上下，甚至更胜一筹，尤其在数学和科学推理方面能力突出。

Phi-4迷你模型：专注于文本处理的高效解决方案

与Phi-4多模态模型相伴而生的Phi-4迷你模型，专注于文本处理任务，参数量为3800万。尽管规模较小，该模型在文本推理、数学计算、编程和指令遵循等方面表现出色，超越了多款流行的大型语言模型。

Phi-4迷你模型的发布为低成本、低延迟环境下的文本处理应用提供了理想解决方案，为开发者提供了更多选择和灵活性。

安全与可靠性：微软的承诺与实践

为确保新模型的安全性和可靠性，微软邀请了内部与外部的安全专家进行全面测试，并按照微软人工智能红队的标准进行优化，体现了微软对用户数据安全和模型可靠性的高度重视。

部署与应用：ONNX Runtime与Azure AI Foundry的支持

Phi-4系列的新模型均可通过ONNX Runtime部署到不同设备上，适用于各种应用场景。无论是云端还是边缘设备，开发者都能轻松集成这些模型到自己的应用中。

此外，这两款新模型已在Azure AI Foundry、Hugging Face和NVIDIA API目录中上线，供开发者使用，进一步降低了开发者使用这些先进模型的门槛，加快了人工智能技术的应用和普及。

# AI快讯 # 微软

文章版权归作者所有，未经允许请勿转载。

暂无评论

暂无评论...