字数 2115,阅读大约需 11 分钟

Figure公司发布新型人形机器人Helix模型:通过语音指令协助家庭事务
Helix模型的发布与技术特点
Helix模型的背景与意义
近期,Figure公司创始人兼CEO Brett Adcock宣布了一款专为人形机器人设计的新型机器学习模型——Helix。这一发布时间点引人关注,因为Figure公司决定暂停与OpenAI的合作。Helix模型被定位为一款“通用型”视觉-语言-动作(VLA)模型,这是机器人技术领域的一个全新概念。VLA模型通过整合视觉和语言指令来处理信息,目前该领域最著名的例子是Google DeepMind的RT-2模型,它通过结合视频和大型语言模型(LLMs)来训练机器人。
Helix模型的工作原理与优势
Helix模型的工作方式与RT-2类似,它将视觉数据和语言提示相结合,以实时控制机器人。Figure公司表示,Helix在物体泛化方面表现出色,能够通过自然语言指令拾取数千种在训练中从未遇到过的新家庭物品,这些物品具有各种不同的形状、大小、颜色和材质属性。用户只需向机器人发出指令,它就能执行相应的任务。Helix模型旨在弥合视觉和语言处理之间的差距。在接收到自然语言语音提示后,机器人会对环境进行视觉评估,然后执行任务。Figure公司提供了一些示例,如“将饼干袋递给右边的机器人”或“从左边的机器人那里接收饼干袋并将其放入打开的抽屉中”。这些示例展示了两个机器人如何协同工作。
Helix模型在家庭环境中的应用
Figure公司通过展示其02人形机器人在家庭环境中的工作,来强调Helix模型的能力。家庭环境对机器人来说是一个极具挑战性的场景,因为它们缺乏仓库和工厂的结构和一致性。这些问题加上高昂的价格,使得家庭机器人尚未成为多数人形机器人公司的首要目标。传统策略是先为工业客户构建机器人,在提高可靠性和降低成本后再解决家庭问题。
然而,通过Helix模型的发布,Figure公司明确表示家庭环境应成为其优先发展方向。这是一个具有挑战性和复杂性的场景,用于测试这类训练模型。例如,教机器人在厨房中执行复杂任务,可以使其在不同的环境中执行各种动作。Figure公司表示:“为了让机器人在家庭中发挥作用,它们需要能够按需生成智能的新行为,特别是对于它们从未见过的物体。”
解决家庭环境中的挑战
目前,教机器人执行新行为需要大量的人力投入,要么是数小时的专家级手动编程,要么是数千次的演示。然而,手动编程在家庭环境中无法扩展,因为存在太多的未知因素。此外,人们会留下杂物、重新布置家具,并偏好各种不同的环境照明。这种方式耗时且昂贵。
另一种选择是进行大量的训练。在实验室中训练用于拾取和放置物体的机械臂通常采用这种方法。然而,为了使演示足够强大以应对高度可变的任务,需要进行数百小时的重复训练。为了让机器人首次就正确地拾取物体,它需要在过去进行过数百次类似的操作。
Helix模型的未来发展
与当前的人形机器人技术一样,Helix模型的工作仍处于早期阶段。制作出像本文中看到的那种简短而制作精良的视频,需要在幕后进行大量的工作。今天的发布,本质上是一个招聘工具,旨在吸引更多的工程师加入项目,以推动其发展。
通过Helix模型的发布,Figure公司展示了其在人形机器人技术领域的创新能力和对家庭环境的重视。随着技术的进步和更多工程师的加入,我们有理由期待Helix模型在未来能够为我们带来更多惊喜,并真正实现通过语音指令协助家庭事务的目标。
家庭环境对机器人的挑战
家庭环境对机器人而言,历来被视为一大难题。与仓库和工厂的有序不同,家庭环境的多样性和复杂性给机器人的学习与控制带来了巨大挑战。这些困难,加上五位数到六位数的高昂价格,使得家庭机器人尚未成为多数人形机器人公司的首要目标。传统策略是先为工业客户构建机器人,待可靠性提升、成本降低后再考虑家庭应用。
Figure公司对家庭环境的重视与未来规划
Figure公司通过其Helix模型的发布,明确表示家庭环境应成为其优先发展方向。家庭环境作为极具挑战性和复杂性的测试场景,对训练模型的检验至关重要。例如,教导机器人在厨房执行复杂任务,能为其在各种不同环境中执行广泛动作奠定基础。Figure公司指出:“为了让机器人在家庭中发挥作用,它们需能按需生成智能的新行为,尤其是针对从未见过的物体。” 目前,教导机器人执行一个新行为需要大量人力投入:要么是数小时的博士级专家手动编程,要么是数千次演示。
在家庭环境中,手动编程难以扩展,因为存在太多未知因素。此外,人们会留下杂物、重新布置家具,并偏好各种不同的环境照明。这种方法耗时且昂贵。
另一种选择是大量训练。但鲜为人知的是,为使演示足够强大以应对高度可变的任务,需进行数百小时的重复训练。为使机器人首次就能正确拾取物品,它需在过去进行过数百次类似操作。
技术亮点
- • Helix模型:Figure公司发布的新型机器学习模型,属于“通才”视觉-语言-动作(VLA)模型类别。该模型结合视觉数据和语言提示,实时控制机器人。
- • 对象泛化能力:Helix展现出强大的对象泛化能力,能通过自然语言指令拾取数千种形状、大小、颜色和材质各异的新型家庭物品,而这些物品在训练中从未出现过。
- • 多机器人协作:Helix设计用于同时控制两个机器人,使它们能相互协作完成各种家庭任务。
行业背景
根据国际机器人联合会的数据,尽管工业机器人市场持续增长,但家庭服务机器人市场仍处于起步阶段。2023年,全球家庭服务机器人市场规模约为150亿美元,预计到2028年将增长至450亿美元。然而,技术挑战和高昂成本仍是制约该市场发展的主要因素。
Figure公司的Helix模型发布,标志着人形机器人在家庭环境中的应用迈出了重要一步。通过将视觉和语言处理相结合,Helix有望使机器人在家庭中执行更广泛的任务,从而推动家庭服务机器人市场的发展。要实现这一目标,仍需克服诸多技术挑战,并降低成本以使更多家庭能够负担得起。