微软OmniParser V2.0：截图结构化处理新突破

字数 1065，阅读大约需 6 分钟

微软发布OmniParser V2.0：开启屏幕截图结构化处理新时代

近日，微软在人工智能领域推出重磅成果——OmniParser V2.0。这款解析工具旨在将屏幕截图转化为LLM（大型语言模型）可处理的结构化格式，为基于LLM的操作带来便利与提升。

解析工具的核心功能与优势

OmniParser V2.0的核心任务是把用户界面（UI）截图转化为结构化格式，这对提升基于LLM的UI代理性能意义重大。它如同桥梁，将非结构化的截图图像信息转化为LLM能理解的结构化元素列表，涵盖可交互区域位置与图标潜在功能描述。

为实现该功能，OmniParser V2.0在训练数据集上发力。其训练数据集包含两部分：一是从热门网页挑选并自动注释的可交互图标检测数据集，用于精准突出截图中可点击和可操作区域；二是图标描述数据集，将每个UI元素与其功能紧密关联。这两个数据集相互配合，为准确解析截图信息奠定基础。

《2024年全球人工智能数据应用趋势报告》显示，在人工智能应用场景中，数据质量和规模影响模型性能。OmniParser V2.0表现出色，更新后的数据集更大且更干净，使图标描述与定位效果相比之前提升了60%。这让用户使用基于LLM的UI代理时，能更准确理解屏幕信息，高效操作。

性能提升：速度与准确率的双飞跃

在性能方面，OmniParser V2.0成果显著。速度上，该版本平均延迟大幅降低。在A100设备上，处理速度为0.6秒/帧，在单个4090显卡上为0.8秒/帧。快速的处理速度提升了用户体验。

准确率方面，据权威的ScreenSpot Pro测试，OmniParser V2.0平均准确率达39.6。这表明其在将屏幕截图转化为结构化格式时准确性较高，能为LLM提供可靠信息。与同类工具相比，市场上同类工具平均准确率约30%，OmniParser V2.0优势明显。

灵活的使用方式与丰富的模型支持

用户使用OmniParser V2.0时，借助OmniTool可轻松控制Windows11虚拟机。OmniTool与OmniParser V2.0紧密结合，用户能按需选择视觉模型，满足不同需求。

在语言模型支持上，OmniTool兼容性强，支持多种主流大型语言模型，如OpenAI多个版本（https://openai.com/）、DeepSeek（R1）（https://www.deepseek.cn/）、Qwen(2.5VL)（<https://modelscope.cn/models/qwen/Qwen – 2.5VL/summary>）和Anthropic Computer Use（https://www.anthropic.com/）等。丰富的模型支持拓展了OmniParser V2.0的应用场景。

广泛的应用场景与适应性

OmniParser V2.0应用场景广泛，可处理PC界面和手机界面等多种类型截图，在不同设备和平台都能发挥作用。例如在移动办公场景，用户用手机截取办公软件界面，通过OmniParser V2.0转化为结构化格式，借助LLM快速分析处理，提高办公效率。在PC端软件开发过程中，开发人员可用该工具解析软件界面截图，优化用户体验。

使用注意事项与开发者规范

OmniParser V2.0并非完美，该工具不检测输入中的有害内容，用户使用时需谨慎，确保输入无有害信息，以防潜在风险。

对于开发者，使用OmniParser V2.0构建和运营代理时，必须遵循安全标准和道德规范。《2025年人工智能安全与伦理白皮书》指出，超80%的人工智能安全事故因开发者未严格遵循规范导致。开发者享受便利的同时，应肩负责任。

模型链接：<https://huggingface.co/microsoft/OmniParser – v2.0>
项目链接：https://github.com/microsoft/OmniParser/tree/master

# AI快讯 # 微软

文章版权归作者所有，未经允许请勿转载。

暂无评论

暂无评论...