DeepSeek V3：强大的AI新模型

一、DeepSeek V3的强大性能

DeepSeek V3是由DeepSeek公司研发的一款AI模型，于12月26日发布，并采用了宽松的许可协议，允许开发者下载和修改用于大多数应用，包括商业应用。

DeepSeek V3能够处理多种基于文本的工作负载和任务，如编码、翻译以及根据描述性提示撰写论文和电子邮件等。据DeepSeek的内部基准测试，DeepSeek V3在性能上优于可下载的“开放”模型和只能通过API访问的“封闭”AI模型。例如，在Codeforces举办的编程竞赛的一个子集中，DeepSeek V3超过了包括Meta的Llama 3.1 405B、OpenAI的GPT-4o和阿里巴巴的Qwen 2.5 72B等其他模型。在Aider Polyglot测试中，DeepSeek V3也表现出色，该测试主要衡量模型能否成功编写可集成到现有代码中的新代码。

二、DeepSeek V3的参数规模与训练数据

DeepSeek V3的参数规模庞大，拥有6710亿个参数，在AI开发平台Hugging Face上则为6850亿个参数，约为Llama 3.1 405B（4050亿个参数）的1.6倍。同时，DeepSeek声称该模型是基于14.8万亿个标记的数据集进行训练的，在数据科学中，100万个标记大约等于75万个单词，如此大规模的训练数据为其强大的性能提供了有力支撑。

三、训练成本与硬件需求

DeepSeek公司仅用了约两个月的时间，使用英伟达H800 GPU的数据中心训练出了DeepSeek V3，且花费仅为550万美元，这相比于OpenAI的GPT-4等模型的开发成本而言，只是一小部分。不过，由于模型规模较大，未优化的DeepSeek V3需要一组高端GPU才能以合理的速度回答问题。

四、模型的局限性

DeepSeek作为一家中国公司，其研发的DeepSeek V3受到中国互联网监管机构的监管，以确保模型的回答“体现社会主义核心价值观”。因此，当被问及一些敏感话题，如天安门广场等问题时，DeepSeek V3无法给出回答。

五、背后的支持与公司愿景

DeepSeek由高飞资本管理公司支持，高飞资本是一家中国量化对冲基金，利用AI为其交易决策提供信息。该公司还建立了自己的服务器集群用于模型训练，据报道，其中最新的一个集群拥有10000个英伟达A100 GPU，价值约13.8亿美元。高飞资本的创始人梁文峰毕业于计算机科学专业，其旨在通过DeepSeek实现“超级智能”AI。

# AI头条 # ai # AI大模型

文章版权归作者所有，未经允许请勿转载。

暂无评论

暂无评论...