字数 745,阅读大约需 4 分钟
英伟达点赞DeepSeek:是“出色的人工智能进步”
近期,国产大模型公司DeepSeek[1]取得显著成绩,其应用一举登顶苹果中国地区和美国地区应用商店免费APP下载排行榜,超越ChatGPT。这一成就不仅在市场上引起轰动,还对AI芯片龙头英伟达的股价产生显著影响。英伟达发言人对DeepSeek给出高度评价,称其为AI领域的一项卓越进步。
英伟达发言人指出,DeepSeek的工作展示了如何利用测试时间缩放技术、广泛可用的模型以及符合出口管制的计算资源来创建新模型。测试时间缩放技术,即若一个已完成完整训练的AI模型在预测、生成文本或图像时投入更多计算资源帮助其推理,模型将输出更优质的答案。这一技术已在OpenAI的o1等模型中得到应用。同时,推理过程需要大量英伟达GPU和高性能网络支持。英伟达目前掌握三种扩展规律:持续进行的预训练与后训练,以及新的测试时间缩放技术。这一表态意味着DeepSeek使用的GPU完全符合美国的出口管制要求。
1月27日,美股三大指数收盘涨跌不一,英伟达股价却暴跌16.86%,收于每股118.58美元,跌至过去10个月以来的最低点。英伟达总市值2.90万亿美元,一日蒸发5900亿美元,创史上最大单日个股市值蒸发纪录。英伟达的暴跌也使得创始人黄仁勋的身家大幅缩水210亿美元。在英伟达的带领下,美股半导体芯片板块集体受挫。
DeepSeek系量化巨头幻方量化旗下大模型公司,于1月20日正式发布推理大模型DeepSeek – R1。R1凭借出色的性能、开源的性质、大幅下降的售价和训练成本获得广泛关注。其预训练费用只有557.6万美元,在2048块英伟达H800 GPU集群上运行55天完成。
在国外大模型排名榜Chatbot Arena上,DeepSeek – R1的基准测试排名已升至全类别大模型第三,与OpenAI的ChatGPT – 4o最新版并列。此外,DeepSeek还在不断拓展技术边界,近期发布全新的Janus – Pro多模态大模型,正式进军文生图领域。在GenEval和DPG – Bench基准测试中,Janus – Pro – 7B不仅击败OpenAI的DALL – E3,还超越Stable Diffusion、Emu3 – Gen等热门模型。Janus – Pro采用MIT开源协议,可无限制地用于商业场景。