
OpenAI
ChatGPT新增实时视频理解功能,历经七个月终于面世
自从OpenAI首次展示了其强大的ChatGPT可以处理实时视频的能力以来,已经过去了七个月的时间。现在,这项备受期待的功能终于向公众开放。用户可以通过ChatGPT Plus, Team, 或者 Pro 订阅服务使用他们的手机摄像头来获取ChatGPT的即时反馈。
新增视觉能力的高级语音模式
Advanced Voice Mode(高级语音模式)是ChatGPT的一项人性化对话特性,现在它得到了扩展,加入了视觉分析功能。这意味着,用户不仅可以听到ChatGPT的声音,还可以让它“看”到周围的世界。例如,当您需要帮助解释一个复杂的数学问题或者想要了解某个应用程序中的设置选项时,只需分享您的屏幕,ChatGPT就能给出指导。
为了访问带有视觉的高级语音模式,您可以在ChatGPT应用程序中点击语音图标旁边的聊天栏,然后选择底部左侧的视频图标启动视频。对于屏幕共享,则可以通过点击三点菜单并选择“Share Screen”(分享屏幕)来实现。
发布计划与限制
OpenAI宣布,Advanced Voice Mode with vision的推出将从本周四开始,并在未来一周内完成部署。不过,并非所有用户都能立即获得此功能;企业级和教育版用户预计要等到一月份才能使用。此外,欧盟、瑞士、冰岛、挪威或列支敦士登地区的用户尚无确切时间表。
值得注意的是,在最近的一次演示中,OpenAI总裁Greg Brockman利用这一新模式测试了Anderson Cooper对人体解剖学的知识。当Cooper在黑板上画出人体部位时,ChatGPT成功地识别了他的绘画。“The location is spot on,” ChatGPT评论道,“The brain is right there in the head. As for the shape, it’s a good start. The brain is more of an oval.”然而,在几何题目上的尝试并不那么顺利,这表明即使是最先进的AI也可能会犯错。
由于各种原因,包括过早宣布产品而导致准备不足,Advanced Voice Mode with vision经历了多次推迟。早在四月份,OpenAI承诺将在几周内部署该功能,但实际上直到秋天才部分实现了没有视觉分析组件的版本。随着周四发布的临近,团队专注于确保更多的平台和地区的用户能够享受到完整的体验。
除了上述更新外,OpenAI还为节日季推出了特别的Santa Mode(圣诞老人模式),让ChatGPT可以用温暖而熟悉的声音与孩子们交流。