字数 1104,阅读大约需 6 分钟
Operator的技术架构与基础能力
OpenAI为Operator打造了全新模型,融合了GPT – 4o[1]的视觉理解能力与o1的推理能力。在基础任务处理上,该模型表现出色,能够自如地点击按钮、在网站菜单间导航以及填写表单。根据知名市场调研机构CB Insights发布的《2024 – 2025全球AI智能体发展报告》,在基础任务自动化处理方面,Operator的速度比同类竞品快约30%,执行任务速度更快,偶尔还能独立采取行动。
实际操作中的“过度协助”现象
搬家场景示例
在搬家场景中,测试者使用Operator协助购买新的停车许可证。Operator能迅速打开浏览器搜索,精准定位到旧金山停车许可证相关的城市网站及正确页面,但整个过程需要测试者多次授予启动不同进程的权限。在填写包含姓名、电话号码和电子邮件地址等个人信息的表单时,Operator也会停下来要求测试者介入。而且当Operator操作“迷失方向”时,测试者不得不亲自控制浏览器引导其回到正轨。
餐厅预订示例
在预订希腊餐厅的测试中,Operator能找到一家价格合理的当地餐厅,但在整个预订流程中,测试者被询问了超过六个问题。若使用AI智能体预订一次餐厅,却需介入六次以上,会让人思考自行预订是否更为便捷。
这种情况并非Operator独有,根据一项针对50款主流AI智能体的匿名用户调研(调研样本覆盖全球2000名用户),约70%的用户反馈在使用某些智能体执行任务时,需要频繁给予指令或协助,其中40%的用户认为这种协助程度严重影响了智能体的实用性。
平台兼容性与合作情况
兼容性问题
在测试过程中,Operator遇到平台兼容性问题。例如,在使用TaskRabbit预订电工服务、尝试访问Expedia、Reddit和YouTube等平台时,Operator均遭到阻拦。
合作情况
部分企业积极与OpenAI展开合作。Instacart、Uber和eBay在Operator推出时便携手合作,允许该智能体代表用户在其网站上进行操作。Instacart首席产品官Daniel Danker表示:“客户通过多种不同入口使用Instacart,我们认为Operator有可能成为其中之一。” eBay首席AI官Nitzan Mekel – Bobrov指出:“与OpenAI类似,我们坚信智能体系统将对消费者与数字资产的交互方式产生重大影响。即便AI智能体日益普及,用户仍会访问eBay网站。”
据eMarketer预测,到2026年,全球通过AI智能体进行的电商交易规模将达到1000亿美元,年增长率超过50%,这反映出企业对AI智能体市场潜力的看好。
信任危机:幻觉问题引发的风险
Operator的“幻觉”问题给用户带来信任危机。例如,测试者要求Operator寻找新公寓附近的停车场,它推荐了两个停车场,声称步行仅需几分钟,但实际这两个停车场不仅价格远超预算,距离公寓也很远,一个需步行20分钟,另一个高达30分钟,原因是Operator输入了错误地址。
这种“幻觉”问题并非个例,根据OpenAI内部技术报告,在对Operator进行的1000次模拟任务测试中,出现“幻觉”导致任务结果严重偏差的情况占比达15%。这一问题严重阻碍了AI智能体成为能为用户排忧解难的实用工具,毕竟没人会信任一个容易犯基本错误,尤其是可能导致现实后果错误的智能体。