低成本推理AI模型Sky-T1的崛起与挑战

阿里巴巴

近日，来自加州大学伯克利分校Sky Computing Lab的NovaSky团队发布了一款名为Sky-T1-32B-Preview的推理AI模型。该模型具有可从头复制的特性，是真正意义上的开源推理模型，因为团队同时发布了用于训练它的数据集和必要的训练代码。

值得注意的是，Sky-T1-32B-Preview的训练成本极低，不到450美元，而在不久前，训练一个性能相当的模型通常需要数百万美元。如AI公司Writer的Palmyra X 004模型，虽几乎完全基于合成数据训练，但开发成本仍高达70万美元。

在性能方面，Sky-T1在MATH500数学挑战和LiveCodeBench编码评估中的表现优于OpenAI的o1早期预览版，但在GPQA-Diamond的物理、生物和化学相关问题上则不如o1预览版。

NovaSky团队表示，他们使用了阿里巴巴的QwQ-32B-Preview推理模型来生成Sky-T1的初始训练数据，然后对数据进行“整理”，并利用OpenAI的GPT-4o-mini将数据重构为更可用的格式。训练这个320亿参数的Sky-T1模型，使用8个英伟达H100 GPU耗时约19小时。

尽管Sky-T1存在一些不足，但NovaSky团队表示这只是他们开发具有高级推理能力的开源模型之旅的开始。未来，他们将专注于开发更高效的模型，以保持强大的推理性能，并探索先进技术，进一步提高模型在测试时的效率和准确性。

文章版权归作者所有，未经允许请勿转载。

暂无评论

暂无评论...