字数 2830,阅读大约需 15 分钟

开源大语言模型(LLMs)踏上欧洲数字主权路线图
近日,一项旨在开发覆盖欧盟所有语言的“真正”开源大语言模型(LLMs)的新项目OpenEuroLLM浮出水面,引发行业关注,使得大语言模型强势登陆欧洲数字主权议程。该项目涉及语言不仅有欧盟24种官方语言,还涵盖阿尔巴尼亚等申请加入欧盟国家的语言。
OpenEuroLLM由约20个组织共同推进,联合领导者为布拉格查理大学计算语言学家Jan Hajič,以及芬兰AI实验室Silo AI首席执行官兼联合创始人Peter Sarlin。值得一提的是,Silo AI于去年被AMD以6.65亿美元收购。
欧洲一直将推动数字主权作为首要任务,众多云巨头在当地投资建设基础设施确保欧盟数据本地存储。例如,OpenAI近期推出服务,允许客户在欧洲处理和存储数据。此外,欧盟签署110亿美元协议打造与Starlink抗衡的主权卫星星座。OpenEuroLLM项目与欧洲推动数字主权方向高度契合。
不过,该项目仅构建模型预算就达3740万欧元,其中约2000万欧元来自欧盟数字欧洲计划。与企业AI巨头投资相比,这笔资金有限。若算上其他工作资金,实际预算更高,最大开支是计算资源。OpenEuroLLM项目合作伙伴包括西班牙、意大利、芬兰和荷兰的EuroHPC超级计算机中心,整个EuroHPC项目预算约70亿欧元。因参与方众多,涵盖学术界、研究机构和企业等,许多人对该项目能否实现目标表示质疑。LLM公司Pleias联合创始人Anastasia Stasenko指出,一个由20多个组织组成的庞大联盟,可能无法像本土私人AI公司那样目标明确、专注行事。她以欧洲近期AI领域成功案例Mistral AI和LightOn为例,称这些公司因小而专注,对产品有掌控权,能为决策负责。
OpenEuroLLM项目:是从零起步还是已有基础?
从某种角度看,OpenEuroLLM项目看似从零开始,又似已有基础。自2022年起,Jan Hajič同时协调高性能语言技术(HPLT)项目,该项目利用高性能计算(HPC)开发免费且可复用的数据集、模型和工作流程,计划于2025年底结束。Hajič认为,鉴于HPLT项目大多数合作伙伴(除英国合作伙伴外)也参与了OpenEuroLLM项目,HPLT项目可视为OpenEuroLLM的“前身”。Hajič表示:“OpenEuroLLM参与范围更广,且更专注于生成式大语言模型。因此,在数据、专业知识、工具和计算经验方面,并非从零开始。我们汇聚了专业人士,有信心能够迅速推进项目。”
Hajič预计,首个版本将于2026年年中发布,最终版本将于2028年项目结束时推出。目前除一个基础GitHub页面外,实质性进展较少,这些目标颇具挑战性。Hajič坦言:“从这方面看,我们确实是从零开始,项目于2月1日星期六正式启动,但我们为此已经筹备了一年(招标程序于2024年2月开启)。”
参与OpenEuroLLM项目的,除EuroHPC中心外,还有来自捷克、荷兰、德国、瑞典、芬兰和挪威等国的学术和研究机构。企业方面,被AMD收购的芬兰AI实验室Silo AI、德国的Aleph Alpha和Ellamind、西班牙的Prompsit Language Engineering以及法国的LightOn均已加入。法国AI独角兽企业Mistral未参与,Mistral将自己定位为OpenAI等现有企业的开源替代方案。虽Mistral无人回应置评请求,但Hajič证实曾试图联系该公司,却未能就其参与项目展开有针对性的讨论。该项目仅允许欧盟组织加入,英国和瑞士实体无法参与,这与英国2023年重新加入曾为HPLT项目提供资金支持的Horizon研发计划形成对比。
项目目标与规划
根据标语,OpenEuroLLM项目首要目标是“为欧洲的透明AI创建一系列基础模型”,且保留所有欧盟语言(现有和未来语言)的“语言和文化多样性”。具体而言,项目成果可能包括一个核心多语言大语言模型,专为高准确性通用任务设计;以及较小的“量化”版本,适用于对效率和速度要求更高的边缘应用场景。Hajič表示:“我们仍需制定详细计划,希望模型尽可能小巧且高质量。我们不想发布不成熟的产品,因为从欧洲角度看,这关系重大,毕竟大量资金来自欧盟委员会公共资金。”
尽管目标是让模型精通所有语言,但实现全面平等不易。Hajič指出:“这是我们目标,但对于数字资源稀缺的语言,能取得多大成功存疑。这也是我们希望为这些语言制定真正基准的原因,避免受可能无法代表这些语言及其文化的基准影响。”
在数据方面,HPLT项目大量工作将发挥重要作用。其数据集2.0版本于四个月前发布,经4.5PB网页爬取数据和超200亿份文档训练。Hajič表示,还将纳入Common Crawl(开放网页爬取数据存储库)的额外数据。
开源定义的困境
在传统软件领域,开源与专有争论围绕“开源”真正含义,通常依据开源倡议组织(Open Source Initiative)正式“定义”解决,该组织界定合法开源许可证。最近,OSI对“开源AI”进行定义,但并非所有人认同。开源AI支持者认为,不仅模型应免费,数据集、预训练模型、权重等所有相关内容都应开源。然而,OSI定义未将训练数据列为必需,因AI模型常使用专有数据或有再分配限制的数据训练。
OpenEuroLLM项目同样面临困境。虽旨在“真正开源”,但为履行“质量”义务可能妥协。Hajič表示:“我们目标是所有内容开源,存在一些限制。我们希望打造高质量模型,根据欧洲版权指令,可使用能获取到的任何数据。部分数据无法重新分发,但有些可存储以备将来检查。”这意味着OpenEuroLLM项目可能对部分训练数据保密,但应按欧盟AI法案要求,在审计人员请求时提供。Hajič还称:“我们希望大部分数据,尤其是来自Common Crawl的数据能够开源。我们希望全部数据都完全开源,但还需视情况而定。无论如何,都必须遵守AI相关法规。”
相似项目的竞争与合作
OpenEuroLLM推出后,有批评声音。几个月前,欧洲启动了非常相似的项目——EuroLLM。EuroLLM于去年9月推出首个模型,12月推出后续版本,由欧盟与九个合作伙伴财团共同资助。其合作伙伴包括爱丁堡大学等学术机构,以及在欧盟超级计算机上赢得数百万GPU训练时间的Unbabel等企业。EuroLLM与OpenEuroLLM目标相似,即“构建支持24种欧洲官方语言及其他几种战略重要性语言的开源欧洲大语言模型”。
Unbabel研究主管Andre Martins在社交媒体强调相似之处,并指出OpenEuroLLM使用已有的名称。他希望不同社区开放合作,分享专业知识,避免重复造轮子。Hajič称这种情况“令人遗憾”,希望双方合作,但强调因OpenEuroLLM资金来源限制,与非欧盟实体(包括英国大学)合作存在限制。
资金差距与项目定位
中国DeepSeek出现及其承诺的性价比,让一些人看到AI项目或许能用较少资金取得更多成果的希望。但过去几周,许多人对构建DeepSeek真实成本提出质疑。OpenEuroLLM项目技术联合负责人Peter Sarlin表示:“关于DeepSeek,我们实际上对其构建过程知之甚少。”
不过,Sarlin认为OpenEuroLLM将获足够资金,因大部分资金用于人员开支。构建AI系统大部分成本在于计算资源,这部分开支主要通过与EuroHPC中心合作解决。他表示:“可以说OpenEuroLLM实际上有相当可观的预算。EuroHPC已在AI和计算基础设施投资数十亿欧元,并承诺未来几年再投入数十亿欧元扩张。”
值得注意的是,OpenEuroLLM项目专注于模型开发,并非打造面向消费者或企业级产品。Sarlin认为,这正是现有预算应足够的原因。他说:“我们意图不是打造聊天机器人或AI助手,那需大量努力,是ChatGPT擅长领域。我们提供开源基础模型,作为欧洲公司构建产品的AI基础设施。我们知道构建模型所需条件,不需要数十亿美元。”
自2017年以来,Sarlin一直领导AI实验室Silo AI,该实验室与包括HPLT项目在内的各方合作,推出Poro和Viking系列开源模型,支持多种欧洲语言。目前,该公司准备推出下一代“Europa”模型,覆盖所有欧洲语言。这印证Hajič所说“并非从零开始”观点,项目已有一定专业知识和技术基础。
OpenEuroLLM项目涉及众多环节,Hajič认可但持积极态度。他说:“我参与过许多合作项目,相信与单一公司相比,这种合作有优势。当然,OpenAI和Mistral等公司取得巨大成就,但我希望学术专业知识与公司专注相结合,带来新成果。”从多方面看,项目最终目标并非超越大型科技公司或价值数十亿美元的AI初创企业,而是实现数字主权:(主要)由欧洲构建并服务于欧洲的开源基础大语言模型。Hajič表示:“我希望不会出现这种情况,但如果最终我们的模型不是最顶尖的,而是一个‘不错’的模型,那么我们仍将拥有一个所有组件都基于欧洲的模型,这也将是一个积极成果。”