OpenEuroLLM：欧洲数字主权的大语言模型新征程

字数 2830，阅读大约需 15 分钟

开源大语言模型（LLMs）踏上欧洲数字主权路线图

近日，一项旨在开发覆盖欧盟所有语言的“真正”开源大语言模型（LLMs）的新项目OpenEuroLLM浮出水面，引发行业关注，使得大语言模型强势登陆欧洲数字主权议程。该项目涉及语言不仅有欧盟24种官方语言，还涵盖阿尔巴尼亚等申请加入欧盟国家的语言。

OpenEuroLLM由约20个组织共同推进，联合领导者为布拉格查理大学计算语言学家Jan Hajič，以及芬兰AI实验室Silo AI首席执行官兼联合创始人Peter Sarlin。值得一提的是，Silo AI于去年被AMD以6.65亿美元收购。

欧洲一直将推动数字主权作为首要任务，众多云巨头在当地投资建设基础设施确保欧盟数据本地存储。例如，OpenAI近期推出服务，允许客户在欧洲处理和存储数据。此外，欧盟签署110亿美元协议打造与Starlink抗衡的主权卫星星座。OpenEuroLLM项目与欧洲推动数字主权方向高度契合。

不过，该项目仅构建模型预算就达3740万欧元，其中约2000万欧元来自欧盟数字欧洲计划。与企业AI巨头投资相比，这笔资金有限。若算上其他工作资金，实际预算更高，最大开支是计算资源。OpenEuroLLM项目合作伙伴包括西班牙、意大利、芬兰和荷兰的EuroHPC超级计算机中心，整个EuroHPC项目预算约70亿欧元。因参与方众多，涵盖学术界、研究机构和企业等，许多人对该项目能否实现目标表示质疑。LLM公司Pleias联合创始人Anastasia Stasenko指出，一个由20多个组织组成的庞大联盟，可能无法像本土私人AI公司那样目标明确、专注行事。她以欧洲近期AI领域成功案例Mistral AI和LightOn为例，称这些公司因小而专注，对产品有掌控权，能为决策负责。

OpenEuroLLM项目：是从零起步还是已有基础？

从某种角度看，OpenEuroLLM项目看似从零开始，又似已有基础。自2022年起，Jan Hajič同时协调高性能语言技术（HPLT）项目，该项目利用高性能计算（HPC）开发免费且可复用的数据集、模型和工作流程，计划于2025年底结束。Hajič认为，鉴于HPLT项目大多数合作伙伴（除英国合作伙伴外）也参与了OpenEuroLLM项目，HPLT项目可视为OpenEuroLLM的“前身”。Hajič表示：“OpenEuroLLM参与范围更广，且更专注于生成式大语言模型。因此，在数据、专业知识、工具和计算经验方面，并非从零开始。我们汇聚了专业人士，有信心能够迅速推进项目。”

Hajič预计，首个版本将于2026年年中发布，最终版本将于2028年项目结束时推出。目前除一个基础GitHub页面外，实质性进展较少，这些目标颇具挑战性。Hajič坦言：“从这方面看，我们确实是从零开始，项目于2月1日星期六正式启动，但我们为此已经筹备了一年（招标程序于2024年2月开启）。”

参与OpenEuroLLM项目的，除EuroHPC中心外，还有来自捷克、荷兰、德国、瑞典、芬兰和挪威等国的学术和研究机构。企业方面，被AMD收购的芬兰AI实验室Silo AI、德国的Aleph Alpha和Ellamind、西班牙的Prompsit Language Engineering以及法国的LightOn均已加入。法国AI独角兽企业Mistral未参与，Mistral将自己定位为OpenAI等现有企业的开源替代方案。虽Mistral无人回应置评请求，但Hajič证实曾试图联系该公司，却未能就其参与项目展开有针对性的讨论。该项目仅允许欧盟组织加入，英国和瑞士实体无法参与，这与英国2023年重新加入曾为HPLT项目提供资金支持的Horizon研发计划形成对比。

项目目标与规划

根据标语，OpenEuroLLM项目首要目标是“为欧洲的透明AI创建一系列基础模型”，且保留所有欧盟语言（现有和未来语言）的“语言和文化多样性”。具体而言，项目成果可能包括一个核心多语言大语言模型，专为高准确性通用任务设计；以及较小的“量化”版本，适用于对效率和速度要求更高的边缘应用场景。Hajič表示：“我们仍需制定详细计划，希望模型尽可能小巧且高质量。我们不想发布不成熟的产品，因为从欧洲角度看，这关系重大，毕竟大量资金来自欧盟委员会公共资金。”

尽管目标是让模型精通所有语言，但实现全面平等不易。Hajič指出：“这是我们目标，但对于数字资源稀缺的语言，能取得多大成功存疑。这也是我们希望为这些语言制定真正基准的原因，避免受可能无法代表这些语言及其文化的基准影响。”

在数据方面，HPLT项目大量工作将发挥重要作用。其数据集2.0版本于四个月前发布，经4.5PB网页爬取数据和超200亿份文档训练。Hajič表示，还将纳入Common Crawl（开放网页爬取数据存储库）的额外数据。

开源定义的困境

在传统软件领域，开源与专有争论围绕“开源”真正含义，通常依据开源倡议组织（Open Source Initiative）正式“定义”解决，该组织界定合法开源许可证。最近，OSI对“开源AI”进行定义，但并非所有人认同。开源AI支持者认为，不仅模型应免费，数据集、预训练模型、权重等所有相关内容都应开源。然而，OSI定义未将训练数据列为必需，因AI模型常使用专有数据或有再分配限制的数据训练。

OpenEuroLLM项目同样面临困境。虽旨在“真正开源”，但为履行“质量”义务可能妥协。Hajič表示：“我们目标是所有内容开源，存在一些限制。我们希望打造高质量模型，根据欧洲版权指令，可使用能获取到的任何数据。部分数据无法重新分发，但有些可存储以备将来检查。”这意味着OpenEuroLLM项目可能对部分训练数据保密，但应按欧盟AI法案要求，在审计人员请求时提供。Hajič还称：“我们希望大部分数据，尤其是来自Common Crawl的数据能够开源。我们希望全部数据都完全开源，但还需视情况而定。无论如何，都必须遵守AI相关法规。”

相似项目的竞争与合作

OpenEuroLLM推出后，有批评声音。几个月前，欧洲启动了非常相似的项目——EuroLLM。EuroLLM于去年9月推出首个模型，12月推出后续版本，由欧盟与九个合作伙伴财团共同资助。其合作伙伴包括爱丁堡大学等学术机构，以及在欧盟超级计算机上赢得数百万GPU训练时间的Unbabel等企业。EuroLLM与OpenEuroLLM目标相似，即“构建支持24种欧洲官方语言及其他几种战略重要性语言的开源欧洲大语言模型”。

Unbabel研究主管Andre Martins在社交媒体强调相似之处，并指出OpenEuroLLM使用已有的名称。他希望不同社区开放合作，分享专业知识，避免重复造轮子。Hajič称这种情况“令人遗憾”，希望双方合作，但强调因OpenEuroLLM资金来源限制，与非欧盟实体（包括英国大学）合作存在限制。

资金差距与项目定位

中国DeepSeek出现及其承诺的性价比，让一些人看到AI项目或许能用较少资金取得更多成果的希望。但过去几周，许多人对构建DeepSeek真实成本提出质疑。OpenEuroLLM项目技术联合负责人Peter Sarlin表示：“关于DeepSeek，我们实际上对其构建过程知之甚少。”

不过，Sarlin认为OpenEuroLLM将获足够资金，因大部分资金用于人员开支。构建AI系统大部分成本在于计算资源，这部分开支主要通过与EuroHPC中心合作解决。他表示：“可以说OpenEuroLLM实际上有相当可观的预算。EuroHPC已在AI和计算基础设施投资数十亿欧元，并承诺未来几年再投入数十亿欧元扩张。”

值得注意的是，OpenEuroLLM项目专注于模型开发，并非打造面向消费者或企业级产品。Sarlin认为，这正是现有预算应足够的原因。他说：“我们意图不是打造聊天机器人或AI助手，那需大量努力，是ChatGPT擅长领域。我们提供开源基础模型，作为欧洲公司构建产品的AI基础设施。我们知道构建模型所需条件，不需要数十亿美元。”

自2017年以来，Sarlin一直领导AI实验室Silo AI，该实验室与包括HPLT项目在内的各方合作，推出Poro和Viking系列开源模型，支持多种欧洲语言。目前，该公司准备推出下一代“Europa”模型，覆盖所有欧洲语言。这印证Hajič所说“并非从零开始”观点，项目已有一定专业知识和技术基础。

OpenEuroLLM项目涉及众多环节，Hajič认可但持积极态度。他说：“我参与过许多合作项目，相信与单一公司相比，这种合作有优势。当然，OpenAI和Mistral等公司取得巨大成就，但我希望学术专业知识与公司专注相结合，带来新成果。”从多方面看，项目最终目标并非超越大型科技公司或价值数十亿美元的AI初创企业，而是实现数字主权：（主要）由欧洲构建并服务于欧洲的开源基础大语言模型。Hajič表示：“我希望不会出现这种情况，但如果最终我们的模型不是最顶尖的，而是一个‘不错’的模型，那么我们仍将拥有一个所有组件都基于欧洲的模型，这也将是一个积极成果。”

# AI快讯 # DeepSeek

文章版权归作者所有，未经允许请勿转载。

暂无评论

暂无评论...