字数 1699,阅读大约需 9 分钟

Gemini:Google的生成式AI旗舰套件
Gemini简介
Gemini是Google由DeepMind和Google Research联合开发的下一代生成式AI模型家族,旨在提供多模态的AI能力。Gemini模型包括四种主要类型:
- • Gemini Ultra:超大型模型,具备强大的多模态处理能力,但目前并未在Gemini应用中广泛提供。
- • Gemini Pro:大型模型,是Google的旗舰模型,最新版本为Gemini 2.0 Pro Experimental,在编码和复杂提示方面表现出色。
- • Gemini Flash:Gemini Pro的轻量级版本,速度更快,适用于高频率的生成式AI任务,包括Gemini 2.0 Flash和Gemini 2.0 Flash-Lite。
- • Gemini Nano:小型模型,可在设备上运行,适用于离线场景,包括Nano-1和Nano-2。
所有Gemini模型都经过了多模态数据的预训练和微调,包括音频、图像、视频、代码和多语言文本,这使得它们能够处理和生成多种类型的内容。
Gemini应用与模型的区别
Gemini应用(包括网页版和移动版,前身为Bard)是连接各种Gemini模型的客户端,提供了类似聊天机器人的用户界面。它们可以被视为Google生成式AI的前端,类似于OpenAI的ChatGPT和Anthropic的Claude应用。
Gemini应用的功能
Gemini应用支持文本、语音命令和图像输入,包括PDF文件,并即将支持视频输入。它们可以生成文本和图像,并在移动设备和网页之间同步对话。在Android上,Gemini应用还支持在任何应用上叠加显示,以回答有关屏幕内容的问题。
Gemini Advanced
Gemini Advanced是Google One AI Premium Plan的一部分,提供对Gemini在Google Workspace应用(如Docs、Maps、Slides等)中的访问权限。它还为Gemini应用带来了更先进的Gemini模型,提供额外功能,如优先访问新功能、直接在Gemini中运行和编辑Python代码的能力,以及更大的“上下文窗口”(可处理约750,000个单词)。Gemini Advanced还提供Deep Research功能,用于生成研究简报,以及记忆功能,允许Gemini使用过去的对话作为当前对话的上下文。
Gemini在Google服务中的集成
Gemini正逐步集成到Google的各种应用和服务中,包括Gmail、Docs、Maps、Slides、Sheets、Drive和Meet等。在Gmail中,Gemini可以帮助撰写邮件和总结消息线程。在Docs中,它可以协助编写和完善内容,并提供新想法。在Slides中,Gemini可以生成幻灯片和自定义图像。在Sheets中,它可以跟踪和组织数据,创建表格和公式。在Maps中,Gemini可以总结评论并提供旅行建议。在Drive中,它可以总结文件和文件夹,并提供项目相关信息。在Meet中,Gemini可以翻译字幕。
Gemini extensions和Gems
Gemini Advanced用户可以创建Gems,即由Gemini模型驱动的自定义聊天机器人。Gems可以根据自然语言描述生成,并与其他用户共享或保持私有。Gemini应用还通过Gemini extensions与Google服务集成,目前支持Drive、Gmail和YouTube,未来将扩展到更多服务,如Calendar、Keep、Tasks和YouTube Music。
Gemini Live
Gemini Live允许用户与Gemini进行深入的语音聊天,可在移动设备和Pixel Buds Pro 2上使用。它支持中断和实时适应用户的语音模式,未来还将具备视觉理解能力,能够通过手机摄像头看到和响应用户周围环境。Gemini Live还旨在成为一种虚拟教练,帮助用户为各种活动做准备,如面试和公开演讲。
图像生成与Imagen 3
Gemini用户可以通过内置的Imagen 3模型生成艺术作品和图像。Imagen 3在理解文本提示并将其转化为图像方面比前代模型更准确,生成的图像更具创意和细节,且减少了视觉错误。然而,由于历史准确性问题,Google曾暂停Gemini生成人物图像的功能,但目前已针对部分付费用户重新开放。
Gemini for teens
Google为青少年推出了专门的Gemini体验,允许学生通过其Google Workspace for Education学校账户注册。该体验包括额外的政策和保障措施,如定制的入门流程和AI素养指南,以帮助青少年负责任地使用AI。
Gemini在智能家居设备中的应用
越来越多的Google设备开始利用Gemini增强功能,包括Google TV Streamer、Pixel 9系列手机和最新的Nest Learning Thermostat。在Google TV Streamer上,Gemini可以根据用户偏好提供内容建议并总结评论。在Nest设备上,Gemini将增强Google Assistant的对话和分析能力,提供AI描述、自然语言视频搜索和推荐自动化等功能。
Gemini模型的能力
由于Gemini模型的多模态特性,它们可以执行各种任务,如转录语音、实时为图像和视频添加字幕等。Google承诺未来将推出更多功能,但考虑到之前Bard的发布和近期Gemini演示视频的争议,对其声明需持谨慎态度。此外,Gemini与其他生成式AI技术一样,存在偏见和产生幻觉(即编造信息)的问题。
Gemini模型的定价
Gemini 1.5 Pro、1.5 Flash、2.0 Flash和2.0 Flash-Lite可通过Google的Gemini API用于构建应用和服务,并提供免费选项,但有使用限制,且不包括某些功能,如上下文缓存和批处理。其他情况下,Gemini模型采用按需付费模式。具体定价取决于模型类型、输入和输出令牌数量等因素。
Project Astra
Project Astra是Google DeepMind旨在创建具有实时、多模态理解能力的AI应用和“代理”的项目。在演示中,Astra能够同时处理实时视频和音频。Google已向少数可信测试人员发布了Astra的应用版本,但目前没有广泛发布的计划。Google希望将Astra集成到智能眼镜中,但目前尚无明确的产品计划。
Gemini与iPhone的集成
Apple表示正在与Google等第三方模型提供商洽谈,以在Apple Intelligence套件中使用Gemini和其他模型。在WWDC 2024的主题演讲后,Apple SVP Craig Federighi确认了与包括Gemini在内的模型合作的计划,但未透露更多细节。