字数 3411,阅读大约需 18 分钟
![DeepSeek DeepSeek的Janus - Pro:AI领域的震撼变革](https://aimgsgoheap.codexiu.cn/2024/11/2024-11-22-deepseek-95fa07fbeba24c8aaa2988476a20866a.webp)
DeepSeek的Janus – Pro:科技行业的震撼与变革
DeepSeek发布Janus – Pro的详细信息
(一)模型特点
- 1. Janus – Pro此次推出了1B和7B两款尺寸的模型,延续了DeepSeek开源、免费且可商用的一贯风格,这使得开发者和研究人员能够更便捷地使用和基于其进行二次开发。这种开源策略极大地促进了AI技术的共享与创新,让更多的人才和团队能够参与到多模态AI的研究与应用中。
- 2. 从功能上看,Janus – Pro能够输出生成高质量的AI图像,在多模态理解和文本到图像的指令遵循能力方面取得了显著进步,同时增强了文生图的稳定性。例如,在处理富有想象力和创造性的场景提示时,Janus – Pro – 7B能够准确捕获语义信息,生成合理且连贯的图像。
(二)性能优势
- 1. 在GenEval和DPG – Bench等基准测试中,Janus – Pro – 7B展现出了卓越的性能。在GenEval文生图指令遵循基准测试中,Janus – Pro – 7B得分为0.80,超过了诸如Janus、Stable Diffusion 3 Medium、DALL – E 3、Emu3 – Gen、PixArt – alpha等先进图像生成模型。
- 2. 在多模态理解基准MMBench上,Janus – Pro – 7B获得了79.2分,超越了最先进的统一多模态模型。这表明Janus – Pro在多模态理解和图像生成任务上都具备强大的能力,为用户提供了更优质、高效的服务。
(三)技术创新点
- 1. 解耦视觉编码:此前一些统一多模态理解和生成模型大多使用相同的视觉编码器处理多模态理解和生成任务的输入,由于两个任务所需表示不同,常导致多模态理解中的次优性能。Janus – Pro提出解耦视觉编码,将视觉理解与图像生成任务分开。
- • 具体而言,对于多模态理解,使用SigLIP – Large – Patch16 – 384编码器从图像中提取高维语义特征,将其从二维网格平展到一维序列,并通过理解适配器映射到大语言模型的输入空间。
- • 对于视觉生成任务,使用VQ tokenizer将图像转换为离散ID,平面化后通过生成适配器映射到输入空间,再连接形成多模态特征序列输入大语言模型。这种方式确保了两个任务不会互相干扰,从而在多模态理解和生成任务中都取得优异性能。
- 2. 改进训练策略:前代Janus模型采用三阶训练过程,虽能胜过更大模型,但存在计算效率低下的问题。DeepSeek对此做出两处修改。
- • 其一,增加第一阶段训练步骤,在ImageNet数据集上进行足够训练。
- • 其二,第二阶段放弃ImageNet数据,直接利用正常文生图数据训练模型以基于密集描述生成图像。此外,还调整了第三阶段监督微调过程中不同类型数据集的数据比例,从7:3:10更改为5:1:4,使模型在保持出色视觉生成能力的同时,实现多模态理解性能的提升。
Janus – Pro与竞品模型的性能对比
(一)与前代模型对比
Janus – Pro作为Janus的升级版,在多个方面超越了前代。Janus在1B参数尺寸上验证了解耦视觉编码的有效性,但受限于训练数据量和相对较小的模型容量,存在短提示图像生成性能不理想、文生图质量不稳定等缺点。而Janus – Pro着重改进了训练策略、数据和模型大小,将模型大小扩展到7B,使得多模态理解和视觉生成的损失收敛速度显著提高,在多模态理解和文本到图像的指令遵循能力上都取得了显著进步,输出的视觉质量更好,细节更丰富,还具备生成简单文本的能力。
(二)与其他竞品模型对比
- 1. 在GenEval基准测试中,Janus – Pro – 7B的0.80分高于Stable Diffusion 3 Medium、DALL – E 3等模型,这表明在文生图指令遵循方面,Janus – Pro – 7B具有更强的能力,能够更准确地根据文本指令生成符合要求的图像。
- 2. 在多模态理解基准MMBench上,Janus – Pro – 7B的79.2分超过最先进的统一多模态模型,说明其在处理多模态信息时表现更为出色。例如,在一些需要理解图像和文本综合信息的任务中,Janus – Pro – 7B能够更准确地把握任务要求并做出响应。
DeepSeek对美股市场的冲击及原因分析
(一)对英伟达、台积电等企业市值的影响
DeepSeek的影响力迅速发酵,对美股市场造成了巨大冲击。英伟达昨日股价暴跌17%,收于118.42美元/股,市值蒸发近6000亿美元(折合人民币近4.35万亿元)。其晶圆代工供应商台积电的市值也在昨日蒸发了1508亿美元(约合人民币1.09万亿元),二者市值共蒸发超5万亿元。
(二)深层逻辑探讨
- 1. 技术替代预期:DeepSeek新模型R1以及Janus – Pro的发布,凭借高性能和成本效益,引发业界对美国科技巨头重资砸向AI基础设施必要性的质疑。如果DeepSeek的技术能够以更低成本实现类似甚至更优的性能,那么市场对英伟达等依赖高端硬件支撑AI发展的企业的未来增长预期就会降低。例如,若开发者可以使用Janus – Pro这样的开源模型在消费级硬件上实现较好的AI应用,对英伟达高端GPU的需求可能会减少。
- 2. 市场竞争格局变化:DeepSeek的崛起打破了原有AI市场的竞争格局。原本市场可能认为英伟达等企业在AI领域的技术和市场地位难以撼动,但DeepSeek的出现让市场看到了新的可能性,资金开始重新评估相关企业的价值,导致股价和市值的波动。
(三)对美股科技股、芯片股走势的影响
受DeepSeek冲击,美股科技股、芯片股均受重挫。纳斯达克100指数下跌3.1%,标普500指数下跌1.5%,微软下跌2.14%,谷歌母公司Alphabet下跌4.03%,博通下跌17.40%,台积电下跌13.33%,ASML下跌5.75%,为AI基础设施提供电气硬件的西门子能源下跌20%,电力产品制造商施耐德电气下跌9.5%。这一系列数据表明,整个美股科技板块和芯片板块都因DeepSeek的出现而遭受了不同程度的打击,市场对这些企业的未来盈利预期和发展前景产生了担忧。而对AI竞赛并不热衷的苹果则安然无恙,在一众暴跌的科技股中逆势上涨3.2%,重返全球市值第一,这也从侧面反映了市场对不同企业在AI浪潮下发展前景的重新审视。
OpenAI的应对及对行业竞争格局的影响
(一)Sam Altman的评价
OpenAI联合创始人兼CEO Sam Altman连发多条推文,夸赞DeepSeek R1是一款“令人印象深刻的模型”。这一公开评价表明OpenAI已经意识到DeepSeek带来的竞争压力,DeepSeek的技术成果得到了行业巨头的认可。
(二)OpenAI的应对策略
Sam Altman接着为自家模型打广告,称OpenAI将推出更好的模型,并且会继续执行原有路线图,强调更多计算比以往任何时候都更重要。这显示出OpenAI在面对竞争时,一方面坚持自身的技术发展方向,另一方面通过预告更好模型的推出,试图稳定市场信心和用户预期。
(三)对AI行业竞争格局的影响
DeepSeek的崛起以及OpenAI的应对,预示着AI行业竞争格局将更加激烈。原本OpenAI在多模态AI领域占据重要地位,但DeepSeek的出现打破了这种相对稳定的局面。其他AI企业也会受到影响,纷纷重新审视自身的技术路线和竞争策略,加大研发投入,推动整个行业的技术创新加速发展。例如,一些原本处于追赶地位的企业可能会借助DeepSeek开源的技术思路,结合自身优势,探索新的技术突破点。
网友对Janus – Pro – 7B的体验反馈
(一)优点
- 1. 信息理解准确:网友反馈Janus – Pro – 7B在信息理解方面基本准确,能够较好地把握文本提示中的语义信息,为生成合理的图像奠定了基础。例如,在处理一些描述复杂场景的文本时,它能够准确提取关键信息,不至于生成与提示毫无关联的图像。
- 2. 图像生成完整:生成的图像整体较为完整,不会出现严重的残缺或不合理的构图。在一些需要生成特定主题图像的任务中,Janus – Pro – 7B能够围绕主题构建出完整的画面,满足用户对图像完整性的基本需求。
(二)不足
局部细节欠缺:在局部细节上,Janus – Pro – 7B相对有欠缺。例如,对于占用有限图像空间的小面部区域,可能显得不够精细。这主要是由于模型的输入分辨率限制为384×384,加上视觉tokenizer带来的重建损失,导致图像虽然具有丰富的语义内容,但在细节呈现上不够完美。
Janus – Pro未来发展的展望和潜在挑战
(一)发展展望
- 1. 应用场景拓展:由于其开源、免费且可商用的特点,Janus – Pro有望在众多领域得到广泛应用。在创意设计领域,设计师可以利用其生成的图像作为灵感来源,快速绘制草图;在教育领域,可以辅助制作教学素材,通过生成与教学内容相关的图像,帮助学生更好地理解知识。
- 2. 技术迭代升级:随着技术的不断发展,DeepSeek可能会进一步优化Janus – Pro。例如,通过提高输入分辨率、改进训练数据等方式,不断提升模型的性能,使其在多模态理解和图像生成方面更加出色,从而在竞争激烈的AI市场中保持领先地位。
(二)潜在挑战
- 1. 输入分辨率限制:Janus – Pro只能分析分辨率至多384×384的小图像,这在一些对图像细节要求较高的应用场景中会受到限制。比如在OCR文本识别任务中,低分辨率图像可能导致文字识别不准确;在医学图像分析领域,无法清晰呈现一些细微的病变特征。虽然提高图像分辨率可以缓解这些问题,但这也会带来计算资源需求增加等新的挑战。
- 2. 市场竞争压力:AI领域竞争激烈,随着更多企业加大在多模态AI领域的投入,未来可能会出现更多性能优异的模型。Janus – Pro需要不断创新和优化,以应对来自同行的竞争压力,保持其在市场中的竞争力。