微软OmniParser V2.0:截图结构化处理新突破

字数 1065,阅读大约需 6 分钟

微软OmniParser V2.0:截图结构化处理新突破
微软是一家跨国科技公司,主要业务包括操作系统、办公软件、服务器软件、游戏、云计算、人工智能等领域。其知名产品有Windows操作系统、Microsoft Office办公软件套件、Azure云计算平台等,在全球计算机软件和互联网服务等方面占据重要地位。

微软发布OmniParser V2.0:开启屏幕截图结构化处理新时代

近日,微软在人工智能领域推出重磅成果——OmniParser V2.0。这款解析工具旨在将屏幕截图转化为LLM(大型语言模型)可处理的结构化格式,为基于LLM的操作带来便利与提升。

解析工具的核心功能与优势

OmniParser V2.0的核心任务是把用户界面(UI)截图转化为结构化格式,这对提升基于LLM的UI代理性能意义重大。它如同桥梁,将非结构化的截图图像信息转化为LLM能理解的结构化元素列表,涵盖可交互区域位置与图标潜在功能描述。

为实现该功能,OmniParser V2.0在训练数据集上发力。其训练数据集包含两部分:一是从热门网页挑选并自动注释的可交互图标检测数据集,用于精准突出截图中可点击和可操作区域;二是图标描述数据集,将每个UI元素与其功能紧密关联。这两个数据集相互配合,为准确解析截图信息奠定基础。

《2024年全球人工智能数据应用趋势报告》显示,在人工智能应用场景中,数据质量和规模影响模型性能。OmniParser V2.0表现出色,更新后的数据集更大且更干净,使图标描述与定位效果相比之前提升了60%。这让用户使用基于LLM的UI代理时,能更准确理解屏幕信息,高效操作。

性能提升:速度与准确率的双飞跃

在性能方面,OmniParser V2.0成果显著。速度上,该版本平均延迟大幅降低。在A100设备上,处理速度为0.6秒/帧,在单个4090显卡上为0.8秒/帧。快速的处理速度提升了用户体验。

准确率方面,据权威的ScreenSpot Pro测试,OmniParser V2.0平均准确率达39.6。这表明其在将屏幕截图转化为结构化格式时准确性较高,能为LLM提供可靠信息。与同类工具相比,市场上同类工具平均准确率约30%,OmniParser V2.0优势明显。

灵活的使用方式与丰富的模型支持

用户使用OmniParser V2.0时,借助OmniTool可轻松控制Windows11虚拟机。OmniTool与OmniParser V2.0紧密结合,用户能按需选择视觉模型,满足不同需求。

在语言模型支持上,OmniTool兼容性强,支持多种主流大型语言模型,如OpenAI多个版本(https://openai.com/)、DeepSeek(R1)(https://www.deepseek.cn/)、Qwen(2.5VL)(<https://modelscope.cn/models/qwen/Qwen – 2.5VL/summary>)和Anthropic Computer Use(https://www.anthropic.com/)等。丰富的模型支持拓展了OmniParser V2.0的应用场景。

广泛的应用场景与适应性

OmniParser V2.0应用场景广泛,可处理PC界面和手机界面等多种类型截图,在不同设备和平台都能发挥作用。例如在移动办公场景,用户用手机截取办公软件界面,通过OmniParser V2.0转化为结构化格式,借助LLM快速分析处理,提高办公效率。在PC端软件开发过程中,开发人员可用该工具解析软件界面截图,优化用户体验。

使用注意事项与开发者规范

OmniParser V2.0并非完美,该工具不检测输入中的有害内容,用户使用时需谨慎,确保输入无有害信息,以防潜在风险。

对于开发者,使用OmniParser V2.0构建和运营代理时,必须遵循安全标准和道德规范。《2025年人工智能安全与伦理白皮书》指出,超80%的人工智能安全事故因开发者未严格遵循规范导致。开发者享受便利的同时,应肩负责任。

模型链接:<https://huggingface.co/microsoft/OmniParser – v2.0>
项目链接:https://github.com/microsoft/OmniParser/tree/master

© 版权声明

相关文章

暂无评论

暂无评论...