![DeepSeek V3:强大的AI新模型](https://aimgsgoheap.codexiu.cn/2024/11/2024-11-22-deepseek-95fa07fbeba24c8aaa2988476a20866a.webp)
一、DeepSeek V3的强大性能
DeepSeek V3是由DeepSeek公司研发的一款AI模型,于12月26日发布,并采用了宽松的许可协议,允许开发者下载和修改用于大多数应用,包括商业应用。
DeepSeek V3能够处理多种基于文本的工作负载和任务,如编码、翻译以及根据描述性提示撰写论文和电子邮件等。据DeepSeek的内部基准测试,DeepSeek V3在性能上优于可下载的“开放”模型和只能通过API访问的“封闭”AI模型。例如,在Codeforces举办的编程竞赛的一个子集中,DeepSeek V3超过了包括Meta的Llama 3.1 405B、OpenAI的GPT-4o和阿里巴巴的Qwen 2.5 72B等其他模型。在Aider Polyglot测试中,DeepSeek V3也表现出色,该测试主要衡量模型能否成功编写可集成到现有代码中的新代码。
二、DeepSeek V3的参数规模与训练数据
DeepSeek V3的参数规模庞大,拥有6710亿个参数,在AI开发平台Hugging Face上则为6850亿个参数,约为Llama 3.1 405B(4050亿个参数)的1.6倍。同时,DeepSeek声称该模型是基于14.8万亿个标记的数据集进行训练的,在数据科学中,100万个标记大约等于75万个单词,如此大规模的训练数据为其强大的性能提供了有力支撑。
三、训练成本与硬件需求
DeepSeek公司仅用了约两个月的时间,使用英伟达H800 GPU的数据中心训练出了DeepSeek V3,且花费仅为550万美元,这相比于OpenAI的GPT-4等模型的开发成本而言,只是一小部分。不过,由于模型规模较大,未优化的DeepSeek V3需要一组高端GPU才能以合理的速度回答问题。
四、模型的局限性
DeepSeek作为一家中国公司,其研发的DeepSeek V3受到中国互联网监管机构的监管,以确保模型的回答“体现社会主义核心价值观”。因此,当被问及一些敏感话题,如天安门广场等问题时,DeepSeek V3无法给出回答。
五、背后的支持与公司愿景
DeepSeek由高飞资本管理公司支持,高飞资本是一家中国量化对冲基金,利用AI为其交易决策提供信息。该公司还建立了自己的服务器集群用于模型训练,据报道,其中最新的一个集群拥有10000个英伟达A100 GPU,价值约13.8亿美元。高飞资本的创始人梁文峰毕业于计算机科学专业,其旨在通过DeepSeek实现“超级智能”AI。