探索Google Gemini：下一代多模态AI旗舰套件

AI快讯5个月前发布 freeAI

0 0

字数 1699，阅读大约需 9 分钟

探索Google Gemini：下一代多模态AI旗舰套件 — Google是一家全球领先的科技公司，专注于提供互联网相关的服务和产品，这些包括搜索、云计算、广告技术等，同时也涉足硬件产品如Pixel手机和Nest设备。

Gemini：Google的生成式AI旗舰套件

Gemini简介

Gemini是Google由DeepMind和Google Research联合开发的下一代生成式AI模型家族，旨在提供多模态的AI能力。Gemini模型包括四种主要类型：

• Gemini Ultra：超大型模型，具备强大的多模态处理能力，但目前并未在Gemini应用中广泛提供。
• Gemini Pro：大型模型，是Google的旗舰模型，最新版本为Gemini 2.0 Pro Experimental，在编码和复杂提示方面表现出色。
• Gemini Flash：Gemini Pro的轻量级版本，速度更快，适用于高频率的生成式AI任务，包括Gemini 2.0 Flash和Gemini 2.0 Flash-Lite。
• Gemini Nano：小型模型，可在设备上运行，适用于离线场景，包括Nano-1和Nano-2。

所有Gemini模型都经过了多模态数据的预训练和微调，包括音频、图像、视频、代码和多语言文本，这使得它们能够处理和生成多种类型的内容。

Gemini应用与模型的区别

Gemini应用（包括网页版和移动版，前身为Bard）是连接各种Gemini模型的客户端，提供了类似聊天机器人的用户界面。它们可以被视为Google生成式AI的前端，类似于OpenAI的ChatGPT和Anthropic的Claude应用。

Gemini应用的功能

Gemini应用支持文本、语音命令和图像输入，包括PDF文件，并即将支持视频输入。它们可以生成文本和图像，并在移动设备和网页之间同步对话。在Android上，Gemini应用还支持在任何应用上叠加显示，以回答有关屏幕内容的问题。

Gemini Advanced

Gemini Advanced是Google One AI Premium Plan的一部分，提供对Gemini在Google Workspace应用（如Docs、Maps、Slides等）中的访问权限。它还为Gemini应用带来了更先进的Gemini模型，提供额外功能，如优先访问新功能、直接在Gemini中运行和编辑Python代码的能力，以及更大的“上下文窗口”（可处理约750,000个单词）。Gemini Advanced还提供Deep Research功能，用于生成研究简报，以及记忆功能，允许Gemini使用过去的对话作为当前对话的上下文。

Gemini在Google服务中的集成

Gemini正逐步集成到Google的各种应用和服务中，包括Gmail、Docs、Maps、Slides、Sheets、Drive和Meet等。在Gmail中，Gemini可以帮助撰写邮件和总结消息线程。在Docs中，它可以协助编写和完善内容，并提供新想法。在Slides中，Gemini可以生成幻灯片和自定义图像。在Sheets中，它可以跟踪和组织数据，创建表格和公式。在Maps中，Gemini可以总结评论并提供旅行建议。在Drive中，它可以总结文件和文件夹，并提供项目相关信息。在Meet中，Gemini可以翻译字幕。

Gemini extensions和Gems

Gemini Advanced用户可以创建Gems，即由Gemini模型驱动的自定义聊天机器人。Gems可以根据自然语言描述生成，并与其他用户共享或保持私有。Gemini应用还通过Gemini extensions与Google服务集成，目前支持Drive、Gmail和YouTube，未来将扩展到更多服务，如Calendar、Keep、Tasks和YouTube Music。

Gemini Live

Gemini Live允许用户与Gemini进行深入的语音聊天，可在移动设备和Pixel Buds Pro 2上使用。它支持中断和实时适应用户的语音模式，未来还将具备视觉理解能力，能够通过手机摄像头看到和响应用户周围环境。Gemini Live还旨在成为一种虚拟教练，帮助用户为各种活动做准备，如面试和公开演讲。

图像生成与Imagen 3

Gemini用户可以通过内置的Imagen 3模型生成艺术作品和图像。Imagen 3在理解文本提示并将其转化为图像方面比前代模型更准确，生成的图像更具创意和细节，且减少了视觉错误。然而，由于历史准确性问题，Google曾暂停Gemini生成人物图像的功能，但目前已针对部分付费用户重新开放。

Gemini for teens

Google为青少年推出了专门的Gemini体验，允许学生通过其Google Workspace for Education学校账户注册。该体验包括额外的政策和保障措施，如定制的入门流程和AI素养指南，以帮助青少年负责任地使用AI。

Gemini在智能家居设备中的应用

越来越多的Google设备开始利用Gemini增强功能，包括Google TV Streamer、Pixel 9系列手机和最新的Nest Learning Thermostat。在Google TV Streamer上，Gemini可以根据用户偏好提供内容建议并总结评论。在Nest设备上，Gemini将增强Google Assistant的对话和分析能力，提供AI描述、自然语言视频搜索和推荐自动化等功能。

Gemini模型的能力

由于Gemini模型的多模态特性，它们可以执行各种任务，如转录语音、实时为图像和视频添加字幕等。Google承诺未来将推出更多功能，但考虑到之前Bard的发布和近期Gemini演示视频的争议，对其声明需持谨慎态度。此外，Gemini与其他生成式AI技术一样，存在偏见和产生幻觉（即编造信息）的问题。

Gemini模型的定价

Gemini 1.5 Pro、1.5 Flash、2.0 Flash和2.0 Flash-Lite可通过Google的Gemini API用于构建应用和服务，并提供免费选项，但有使用限制，且不包括某些功能，如上下文缓存和批处理。其他情况下，Gemini模型采用按需付费模式。具体定价取决于模型类型、输入和输出令牌数量等因素。

Project Astra

Project Astra是Google DeepMind旨在创建具有实时、多模态理解能力的AI应用和“代理”的项目。在演示中，Astra能够同时处理实时视频和音频。Google已向少数可信测试人员发布了Astra的应用版本，但目前没有广泛发布的计划。Google希望将Astra集成到智能眼镜中，但目前尚无明确的产品计划。

Gemini与iPhone的集成

Apple表示正在与Google等第三方模型提供商洽谈，以在Apple Intelligence套件中使用Gemini和其他模型。在WWDC 2024的主题演讲后，Apple SVP Craig Federighi确认了与包括Gemini在内的模型合作的计划，但未透露更多细节。

文章版权归作者所有，未经允许请勿转载。

暂无评论

暂无评论...