
阿里巴巴
近日,来自加州大学伯克利分校Sky Computing Lab的NovaSky团队发布了一款名为Sky-T1-32B-Preview的推理AI模型。该模型具有可从头复制的特性,是真正意义上的开源推理模型,因为团队同时发布了用于训练它的数据集和必要的训练代码。
值得注意的是,Sky-T1-32B-Preview的训练成本极低,不到450美元,而在不久前,训练一个性能相当的模型通常需要数百万美元。如AI公司Writer的Palmyra X 004模型,虽几乎完全基于合成数据训练,但开发成本仍高达70万美元。
在性能方面,Sky-T1在MATH500数学挑战和LiveCodeBench编码评估中的表现优于OpenAI的o1早期预览版,但在GPQA-Diamond的物理、生物和化学相关问题上则不如o1预览版。
NovaSky团队表示,他们使用了阿里巴巴的QwQ-32B-Preview推理模型来生成Sky-T1的初始训练数据,然后对数据进行“整理”,并利用OpenAI的GPT-4o-mini将数据重构为更可用的格式。训练这个320亿参数的Sky-T1模型,使用8个英伟达H100 GPU耗时约19小时。
尽管Sky-T1存在一些不足,但NovaSky团队表示这只是他们开发具有高级推理能力的开源模型之旅的开始。未来,他们将专注于开发更高效的模型,以保持强大的推理性能,并探索先进技术,进一步提高模型在测试时的效率和准确性。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...