多任务机器人
受到当前生成式人工智能蓬勃发展背后的一些核心技术的启发,机器人专家开始建造更多能够执行更广泛任务的通用机器人。
过去几年,人工智能领域已从使用多个小型模型(每个模型都经过训练以执行不同的任务,例如识别图像、绘制图像、为图像添加字幕)转向使用单个整体模型,这些模型经过训练可以完成所有这些任务甚至更多。通过向 OpenAI 的 GPT-3 展示一些额外的示例(称为微调),研究人员可以训练它解决编码问题、编写电影剧本、通过高中生物考试等等。多模式模型(如 GPT-4 和 Google DeepMind 的 Gemini)可以解决视觉任务以及语言任务。
同样的办法也适用于机器人,因此无需训练一个机器人翻煎饼,训练另一个机器人开门:一个通用模型可以让机器人具备多任务处理能力。2023 年,该领域的几项工作成果浮出水面。
6 月,DeepMind 发布了Robocat(去年Gato的更新版本),它通过反复试验生成自己的数据,以学习如何控制许多不同的机械臂(而不是更典型的一种特定的机械臂)。
10 月份,该公司与 33 所大学实验室合作,推出了另一种通用机器人模型 RT-X 和一套大型新型通用训练数据集。其他顶级研究团队,如加州大学伯克利分校的 RAIL(机器人人工智能和学习)团队,也在研究类似的技术。
问题在于缺乏数据。生成式人工智能利用互联网规模的文本和图像数据集。相比之下,机器人几乎没有好的数据源来帮助它们学习如何完成我们希望它们完成的许多工业或家庭任务。
纽约大学的Lerrel Pinto领导着一个研究团队,致力于解决这一问题。他和同事们正在开发一种技术,让机器人通过反复试验来学习,并在学习过程中获得自己的训练数据。在一个更加低调的项目中,Pinto 招募了志愿者,使用安装在垃圾车上的 iPhone 摄像头收集他们家周围的视频数据。过去几年,一些大公司也开始发布用于训练机器人的大型数据集,比如Meta 的 Ego4D。
这种方法已经在无人驾驶汽车中展现出前景。Wayve、Waabi 和 Ghost 等初创公司正在引领新一波自动驾驶 AI,使用单个大型模型来控制车辆,而不是使用多个小型模型来控制特定的驾驶任务。这使得小公司能够赶上 Cruise 和 Waymo 等巨头。Wayve 目前正在伦敦狭窄繁忙的街道上测试其无人驾驶汽车。世界各地的机器人都将获得类似的推动。
—威尔·道格拉斯·海文
定制聊天机器人
你得到了一个聊天机器人!你得到了一个聊天机器人!2024 年,在生成式人工智能方面投入巨资的科技公司将面临压力,需要证明他们可以通过自己的产品赚钱。为此,人工智能巨头谷歌和 OpenAI 都在大举进军小领域:两家公司都在开发用户友好的平台,让人们可以定制强大的语言模型,并制作自己的迷你聊天机器人来满足他们的特定需求——无需任何编码技能。两家公司都推出了基于网络的工具,让任何人都可以成为生成式人工智能应用程序开发者。
2024 年,生成式人工智能可能真的会为普通非技术人员所用,我们将看到更多人摆弄数百万个小型人工智能模型。最先进的人工智能模型(如 GPT-4 和Gemini)是多模式的,这意味着它们不仅可以处理文本,还可以处理图像甚至视频。这项新功能可以解锁一大堆新应用。例如,房地产经纪人可以上传以前房源的文本,只需单击按钮即可微调强大的模型以生成类似的文本,上传新房源的视频和照片,然后只需要求定制的人工智能生成房产描述即可。
但当然,该计划的成功取决于这些模型是否可靠地工作。语言模型经常会编造一些东西,而生成模型则充满偏见。它们也很容易被黑客入侵,特别是如果允许它们浏览网页的话。科技公司还没有解决这些问题中的任何一个。当新鲜感消失时,他们将不得不为客户提供解决这些问题的方法。
—Melissa Heikkil
生成式人工智能的第二波浪潮将是视频
神奇的事情变得熟悉的速度之快令人惊叹。第一批生成照片级逼真图像的生成模型于 2022 年迅速成为主流——并很快变得司空见惯。OpenAI 的 DALL-E、Stability AI 的 Stable Diffusion 和 Adobe 的 Firefly 等工具让互联网上充斥着令人惊叹的图像,从身穿巴黎世家服装的教皇到获奖艺术品,应有尽有。但这并不全是好玩的:每只挥舞绒球的哈巴狗,都有另一件仿冒的幻想艺术或性别歧视的性别刻板印象。
新的领域是文本转视频。它有望将文本转图像的所有优点、缺点和丑陋之处放大,并将其放大。
一年前,我们首次看到了生成模型的功能,当时它们被训练将多张静态图像拼接成几秒长的剪辑。结果失真且不稳定。但这项技术已经迅速改进。
Runway是一家制作生成视频模型的初创公司(也是 Stable Diffusion 的联合创始人),该公司每隔几个月就会发布新版本的工具。其最新型号名为Gen-2,生成的视频仍然只有几秒钟,但质量惊人。最好的视频片段与皮克斯可能推出的视频片段相差无几。
Runway 设立了年度人工智能电影节,展示使用各种人工智能工具制作的实验电影。今年的电影节奖金总额为 6 万美元,10 部最佳影片将在纽约和洛杉矶放映。
顶级电影公司注意到这一点并不令人意外。包括派拉蒙和迪士尼在内的电影巨头目前正在探索在整个制作流程中使用生成式人工智能。该技术被用于将演员的表演与多种外语配音进行口型同步。它正在重新定义特效的可能性。2023 年,《夺宝奇兵 2:命运之表盘》由年轻版的哈里森·福特主演。这只是一个开始。
除了大银幕,用于营销或培训目的的深度伪造技术也正在兴起。例如,总部位于英国的 Synthesia 开发的工具可以将演员的一次性表演变成源源不断的深度伪造头像,只需按一下按钮,它们就会背诵你给他们的任何剧本。据该公司称,其技术目前已被 44% 的财富 100 强公司使用。
用如此少的资源做如此多的事情,这给演员们带来了严重的问题。去年,美国演员工会和电视和广播艺人工会罢工的核心就是对制片厂使用和滥用人工智能的担忧。但这项技术的真正影响才刚刚显现出来。“电影制作工艺正在发生根本性的变化,”独立电影制片人、创意技术咨询公司 Bell & Whistle 联合创始人 Souki Mehdaoui 表示。
—威尔·道格拉斯·海文
人工智能生成的选举虚假信息将无处不在
如果以最近的选举结果来看,那么随着 2024 年创纪录的选举人数,人工智能生成的选举虚假信息和深度伪造将成为一个巨大的问题。我们已经看到政客们将这些工具武器化。在阿根廷,两位总统候选人用人工智能生成了对手的图像和视频来攻击他们。在斯洛伐克,在该国选举期间,一位亲欧自由党领袖威胁提高啤酒价格并拿儿童色情开玩笑的深度伪造视频像野火一样传播开来。而在美国,唐纳德·特朗普为一个使用人工智能生成带有种族主义和性别歧视比喻的表情包的组织 欢呼。
虽然很难说这些例子对选举结果有多大影响,但它们的泛滥是一个令人担忧的趋势。在网上辨别真假将变得比以往任何时候都更加困难。在已经激化和两极分化的政治气氛中,这可能会带来严重后果。
就在几年前,制作深度伪造视频还需要高超的技术技能,但生成式人工智能让制作过程变得非常简单和容易,而且输出结果看起来也越来越逼真。即使是信誉良好的来源也可能会被人工智能生成的内容所欺骗。例如,用户提交的人工智能生成的图片充斥着Adob e 等图片库,这些图片据称描绘了以色列-加沙危机。
对于那些打击此类内容泛滥的人来说,未来的一年将是关键的一年。追踪和缓解此类内容的技术仍处于早期开发阶段。水印(例如Google DeepMind 的 SynthID)仍然主要是自愿的,并非万无一失。而且社交媒体平台在删除错误信息方面的速度非常缓慢。准备好进行大规模实时实验,以打击人工智能生成的虚假新闻。
—Melissa Heikkil