字数 2726,阅读大约需 14 分钟

Google Gemini:关于生成性AI模型的一切你需要知道的
Gemini简介与模型类型
什么是Gemini?
Gemini是Google下一代生成性AI模型家族,由Google的AI研究实验室DeepMind和Google Research共同开发。它有四个主要版本:
- 1. Gemini Ultra:一个非常大的模型,目前并未在Gemini应用中出现,也未列在Google Gemini的API定价页面上,但未来可能会重新成为Google产品线的核心。根据Google的描述,Gemini Ultra因其多模态能力,可以用于辅助完成物理作业,逐步解决工作表上的问题,并指出已填写答案中的潜在错误。此外,它还可以用于识别与问题相关的科学论文,从多篇论文中提取信息,并根据最新数据生成公式来更新图表。
- 2. Gemini Pro:一个大型模型,但比Ultra小。最新版本是Gemini 2.0 Pro Experimental,这是Google的旗舰模型,擅长处理复杂的编码和数学问题。根据Google的说法,Gemini 2.0 Pro在编码、推理、数学和事实准确性方面的基准测试中表现优于其前身Gemini 1.5 Pro。该模型可以处理多达140万个单词、两小时的视频或22小时的音频,并可以对这些数据进行推理或回答问题。
- 3. Gemini Flash:Pro的更快速、“蒸馏”版本。它还有一个更小更快的版本,称为Gemini Flash-Lite,以及一个具有推理能力的版本,称为Gemini Flash Thinking Experimental。Gemini Flash被Google称为面向代理时代的AI模型,除了文本外,它还可以原生生成图像和音频,并可以使用Google Search等工具与外部API进行交互。Gemini Flash在编码和图像分析方面的基准测试中表现优于一些较大的Gemini 1.5模型。
- 4. Gemini Nano:两个小型模型,Nano-1和稍强一些的Nano-2,旨在离线运行。Nano已经在Pixel 8 Pro、Pixel 8、Pixel 9 Pro、Pixel 9和Samsung Galaxy S24等设备上实现了一些功能,如Recorder应用中的“总结”和Gboard中的“智能回复”。Nano还被用于Pixel手机上的新天气应用,以生成个性化的天气报告,以及Google的TalkBack辅助功能服务,为视力低下和盲人用户提供物体的听觉描述。
所有Gemini模型都经过训练,可以原生地处理多模态数据,即能够处理和分析不仅仅是文本的数据。它们在各种公开、专有和许可的音频、图像和视频数据集、一组代码库以及不同语言的文本上进行了预训练和微调。这使Gemini与仅接受文本数据训练的模型区分开来。
Gemini应用与Gemini模型的区别
Gemini与网络和移动设备上的Gemini应用(前身为Bard)是分开且不同的。Gemini应用是连接到各种Gemini模型的客户端,并在其上添加了类似聊天机器人的界面。可以将它们视为Google生成性AI的前端,类似于ChatGPT和Anthropic的Claude系列应用。Gemini应用可以接受图像以及语音命令和文本(包括PDF等文件,以及即将支持的视频)作为输入,并生成图像作为输出。在移动设备上与Gemini应用的对话可以与网络上的Gemini对话同步,前提是使用相同的Google帐户登录。
Gemini Advanced
除了Gemini应用,Gemini模型的功能还逐渐集成到Google的其他核心应用和服务中,如Gmail和Google Docs。要使用这些功能,通常需要订阅Google One AI Premium Plan,该计划提供对Google Workspace应用中Gemini功能的访问权限。此外,它还启用了所谓的Gemini Advanced,将公司的更复杂的Gemini模型引入Gemini应用。Gemini Advanced用户可以享受一些额外功能,如优先访问新功能、直接在Gemini中运行和编辑Python代码的能力,以及更大的“上下文窗口”。Gemini Advanced可以在对话中记住大约750,000个单词的内容并进行推理,而普通Gemini应用只能处理24,000个单词。
Gemini在Google服务中的集成
Gemini的功能已经扩展到Google的许多其他服务中。在Gmail中,Gemini可以帮助撰写电子邮件和总结消息线程。在Docs中,它可以帮助撰写和完善内容,并集思广益新想法。在Slides中,它可以生成幻灯片和自定义图像。在Sheets中,它可以跟踪和组织数据,创建表格和公式。在Maps中,Gemini可以总结咖啡店的评论或提供在外国城市度过一天的建议。在Drive中,它可以总结文件和文件夹,并提供有关项目的快速事实。在Meet中,它可以将字幕翻译成其他语言。此外,Gemini还集成到Google的Chrome浏览器中,作为AI写作工具,可以帮助用户撰写新内容或重写现有文本。
Gemini扩展和Gems
在Google I/O 2024上宣布,Gemini Advanced用户可以创建Gems,这是由Gemini模型驱动的自定义聊天机器人。Gems可以根据自然语言描述生成,并可以与其他人共享或保持私密。Gems在桌面和移动设备上提供,支持150个国家和大多数语言。未来,它们将能够利用与Google服务的更广泛的集成来完成自定义任务,包括Google Calendar、Tasks、Keep和YouTube Music。
Gemini Live深入语音聊天
Gemini Live允许用户与Gemini进行“深入”的语音聊天。该功能在移动设备上的Gemini应用和Pixel Buds Pro 2中提供,即使手机被锁定也可以访问。启用Gemini Live后,用户可以在聊天机器人说话时打断它以提出澄清问题,它将实时适应用户的说话模式。未来,Gemini将获得视觉理解能力,允许它通过智能手机摄像头拍摄的图片或视频看到并响应用户的周围环境。
通过Imagen 3生成图像
Gemini用户可以使用Google内置的Imagen 3模型生成艺术品和图像。Google表示,Imagen 3比其前身Imagen 2更准确地理解将其转换为图像的文本提示,并且在生成过程中更具“创造力和细节”。此外,该模型产生的伪影和视觉错误更少,并且是迄今为止在渲染文本方面表现最好的Imagen模型。
Gemini for Teens
6月,Google推出了面向青少年的Gemini体验,允许学生通过他们的Google Workspace for Education学校帐户注册。面向青少年的Gemini具有“额外的政策和保障措施”,包括量身定制的入职流程和“AI素养指南”,以帮助青少年负责任地使用AI。除此之外,它与标准的Gemini体验几乎相同,包括“双重检查”功能,该功能会查看整个网络以确定Gemini的响应是否准确。
Gemini在智能家居设备中的应用
越来越多的Google制造的设备利用Gemini来增强功能,从Google TV Streamer到Pixel 9和9 Pro,再到最新的Nest Learning Thermostat。在Google TV Streamer上,Gemini使用用户的偏好来跨订阅内容提供个性化推荐,并总结评论甚至整个电视剧季。在最新的Nest恒温器上,Gemini将很快增强Google Assistant的对话和分析能力。今年晚些时候,Google的Nest Aware计划的订阅者将预览新的Gemini驱动体验,如Nest摄像头录像的AI描述、自然语言视频搜索和推荐的自动化。
Gemini模型能做什么?
由于Gemini模型是多模态的,它们可以执行各种多模态任务,从转录语音到实时为图像和视频添加字幕。其中许多功能已经在产品阶段实现,Google承诺在不久的将来会提供更多功能。然而,要完全相信公司的说法还为时尚早。Google在最初的Bard发布时严重低估了其能力。最近,它发布了一段视频,展示了Gemini的能力,但该视频更多地是展示其愿景而非实际功能。
Gemini模型的成本
Gemini 1.5 Pro、1.5 Flash、2.0 Flash和2.0 Flash-Lite可通过Google的Gemini API用于构建应用和服务,所有这些都提供免费选项。但免费选项有使用限制,并排除了一些功能。以下是截至2024年9月的基本定价:
- • Gemini 1.5 Pro:每100万个输入令牌1.25美元(对于最多128K个令牌的提示)或每100万个输入令牌2.50美元(对于超过128K个令牌的提示);每100万个输出令牌5美元(对于最多128K个令牌的提示)或每100万个输出令牌10美元(对于超过128K个令牌的提示)
- • Gemini 1.5 Flash:每100万个输入令牌7.5美分(对于最多128K个令牌的提示),每100万个输入令牌15美分(对于超过128K个令牌的提示),每100万个输出令牌30美分(对于最多128K个令牌的提示),每100万个输出令牌60美分(对于超过128K个令牌的提示)
- • Gemini 2.0 Flash:每100万个输入令牌10美分,每100万个输出令牌40美分。对于音频,每100万个输入令牌70美分,每100万个输出令牌也40美分。
- • Gemini 2.0 Flash-Lite:每100万个输入令牌7.5美分,每100万个输出令牌30美分。
Project Astra的最新动态
Project Astra是Google DeepMind为实时多模态理解创建AI驱动的应用和“代理”的努力。在演示中,Google展示了该AI模型如何同时处理实时视频和音频。Google在12月向一小部分受信任的测试人员发布了Project Astra的应用版本,但目前没有计划进行更广泛的发布。该公司希望将Project Astra集成到一副智能眼镜中。
Gemini是否会登陆iPhone?
可能会。Apple表示,它正在与Google和其他第三方模型进行谈判,以在Apple Intelligence套件中使用它们来实现各种功能。在WWDC 2024的主题演讲后,Apple SVP Craig Federighi确认了与包括Gemini在内的模型合作的计划,但他没有透露任何额外的细节。