低成本推理AI模型Sky-T1的崛起与挑战

AI头条3个月前发布 freeAI
0
低成本推理AI模型Sky-T1的崛起与挑战

阿里巴巴

近日,来自加州大学伯克利分校Sky Computing Lab的NovaSky团队发布了一款名为Sky-T1-32B-Preview的推理AI模型。该模型具有可从头复制的特性,是真正意义上的开源推理模型,因为团队同时发布了用于训练它的数据集和必要的训练代码。

值得注意的是,Sky-T1-32B-Preview的训练成本极低,不到450美元,而在不久前,训练一个性能相当的模型通常需要数百万美元。如AI公司Writer的Palmyra X 004模型,虽几乎完全基于合成数据训练,但开发成本仍高达70万美元。

在性能方面,Sky-T1在MATH500数学挑战和LiveCodeBench编码评估中的表现优于OpenAI的o1早期预览版,但在GPQA-Diamond的物理、生物和化学相关问题上则不如o1预览版。

NovaSky团队表示,他们使用了阿里巴巴的QwQ-32B-Preview推理模型来生成Sky-T1的初始训练数据,然后对数据进行“整理”,并利用OpenAI的GPT-4o-mini将数据重构为更可用的格式。训练这个320亿参数的Sky-T1模型,使用8个英伟达H100 GPU耗时约19小时。

尽管Sky-T1存在一些不足,但NovaSky团队表示这只是他们开发具有高级推理能力的开源模型之旅的开始。未来,他们将专注于开发更高效的模型,以保持强大的推理性能,并探索先进技术,进一步提高模型在测试时的效率和准确性。

© 版权声明

相关文章

暂无评论

暂无评论...