近日,哈佛大学宣布即将推出一个规模庞大的免费AI训练数据集,此项目得到了OpenAI 官网 和 Microsoft 官网 的资金支持。此举标志着学术界与科技巨头之间的合作,以促进人工智能研究的进展,并提供一种不侵犯版权的方式获取大量高质量的训练资料。
除了整理丰富的图书资源外,哈佛大学的Institutional Data Initiative(IDI)还与波士顿公共图书馆协作,致力于数字化处理来自不同报纸的数百万篇文章。这些材料现在都处于公共领域,IDI表示愿意在未来建立更多的合作伙伴关系来扩展其数据库。
IDI正在考虑与Google合作进行公共分发,并且已经获得了该公司的承诺。无论采取何种方式发布,这个数据集都将加入到一系列类似的项目中,这些项目允许公司访问大量的、高质量的人工智能训练素材,而无需担心版权问题。
值得注意的是,法国AI初创企业Pleias最近推出了名为Common Corpus的数据集,包含大约3至4万本图书及期刊收藏,该项目已下载超过60,000次,显示出公众对此类开放数据资源的高度兴趣。此外,还有其他几个致力于创建图像和其他类型媒体数据集的努力正在进行当中。
随着越来越多这样的公开数据集出现,有关人士指出,这证明了即使不用非法手段获取受版权保护的内容,也可以构建高性能的人工智能模型。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...