字数 880,阅读大约需 5 分钟
![阿里巴巴 震撼!阿里Qwen团队发布能控PC和手机的AI模型Qwen2.5-VL](https://aimgsgoheap.codexiu.cn/2024/11/2024-11-28-alibabagroup-d50707ddbecb41fa9b419cc6fe5b383f.webp)
在人工智能领域不断创新突破的浪潮中,各大企业都在竞相发力。近日,中国的科技巨头阿里巴巴便有了新动作。
阿里巴巴的Qwen团队于1月27日周一发布了全新的AI模型家族——Qwen2.5-VL。阿里巴巴作为全球知名的互联网企业,在云计算、人工智能等领域一直投入大量资源进行研发,其Qwen团队在AI技术探索上也有着深厚的积累。
Qwen2.5-VL具有强大的功能,它可以执行众多文本和图像分析任务。比如,能够轻松解析各类文件,无论是复杂的文档格式还是特殊的编码文件;可以精准理解视频内容,就算是时长数小时的视频也能“领会”其中要点;还能准确地对图像中的物体进行计数。值得一提的是,它还可以像OpenAI的Operator模型那样控制PC。据Qwen团队的基准测试显示,性能最佳的Qwen2.5-VL模型在视频理解、数学运算、文档分析以及问答评估等一系列项目中,击败了OpenAI的GPT-4o、Anthropic的Claude 3.5 Sonnet和谷歌的Gemini 2.0 Flash等业界知名模型。
Qwen2.5-VL的功能远不止于此,用户可以在阿里巴巴的Qwen Chat应用[1]中对其进行测试,也能从AI开发平台Hugging Face[2]下载。它能够分析图表和图形,从发票和表单的扫描件中提取数据。并且,该模型还能够识别影视剧中的IP以及各种各样的产品,这或许意味着在训练过程中它使用了部分版权作品。
当然,作为中国公司开发的AI,Qwen2.5-VL在话题讨论上存在一定限制。比如在Qwen Chat中,当询问最大且性能最强的Qwen2.5-VL-72B模型关于“Xi Jinping的错误”时,Qwen Chat会显示错误消息。这是因为中国互联网监管机构对国内开发的许多模型进行基准测试,以确保其响应“体现社会主义核心价值观”,许多中国AI系统都会对可能引发监管问题的话题,如台湾自治等,拒绝回应。
Qwen2.5-VL还有一个非常有趣的功能,就是能够与PC和移动设备上的软件进行交互。Hugging Face的技术负责人Philipp Schmid在X上发布的视频显示,Qwen2.5-VL可以启动安卓系统的Booking.com应用,并预订从重庆到北京的航班。不过,在另一个展示Qwen2.5-VL在Linux桌面上控制应用的视频中可以看到,它除了切换标签页外,似乎没有太多其他操作。而且,Qwen的基准测试表明,Qwen2.5-VL在模拟真实计算机环境的OSWorld基准测试中得分较低。
在授权方面,Qwen2.5-VL系列中的两个较小、复杂程度较低的模型Qwen2.5-VL-3B和Qwen2.5-VL-7B采用宽松的许可协议。而旗舰模型Qwen2.5-VL-72B则采用阿里巴巴的定制许可,要求月活跃用户超过1亿的公司和开发人员在商业部署该模型前,需向Qwen/阿里巴巴请求许可。
引用链接
[1]
阿里巴巴的Qwen Chat应用: https://qwen.alibaba.com/[2]
Hugging Face: https://huggingface.co/