SWE – Lancer:突破传统,重塑软件工程基准测试

字数 922,阅读大约需 5 分钟

SWE - Lancer:突破传统,重塑软件工程基准测试
OpenAI是一家人工智能研究实验室和技术公司,致力于以安全和有益的方式推进人工智能。其开发了诸如GPT系列等具有影响力的语言模型,在自然语言处理、对话系统等多个领域开展研究与应用,推动人工智能技术的发展与创新。

传统基准测试的困境

在快速发展的人工智能与软件工程领域,传统基准测试方法难以满足复杂多变的行业需求。如今,自由职业的软件工程工作极为复杂,工程师不仅要处理孤立的编码任务,还需驾驭整个代码库,集成多种系统,满足客户复杂需求。

然而,传统评估方法多局限于单元测试,无法全面反映全栈性能及解决方案在实际应用中的经济影响。据相关报告显示,过去五年,随着软件项目规模和复杂度提升,传统单元测试评估整体项目质量的准确率从70%降至50%左右,开发更有效的评估方法迫在眉睫。

SWE – Lancer基准测试的诞生

为填补这一空白,OpenAI打造了SWE – Lancer基准测试。该测试基于Upwork和Expensify存储库的1400多个自由职业任务,这些任务总支付金额达100万美元。任务类型多样,涵盖自由软件工程工作的各个方面,从修复微小bug到实现大型功能。

SWE – Lancer的独特亮点

创新评估方式

SWE – Lancer的核心在于创新评估方式。它不仅评估个别代码补丁,还考量管理决策。模型需从多个选项中挑选最佳提案,模拟真实工程团队中技术与管理能力兼具的角色。

端到端测试

与传统孤立单元测试不同,SWE – Lancer采用端到端测试。这些测试由专业软件工程师设计并验证,模拟从问题识别、调试到补丁验证的完整用户工作流程。例如,在电商平台测试任务中,从用户发现商品展示异常,到工程师定位问题、编写代码补丁,再到验证补丁是否解决问题,整个过程都在测试范围内。并且,通过统一的Docker镜像评估,确保每个模型在相同受控条件下接受考验,检验模型解决方案的稳健性与实际部署潜力。

高度还原真实工作场景

SWE – Lancer的技术细节设计巧妙,充分反映自由职业工作实际情况。任务要求修改多个文件、与API集成,兼顾移动和Web平台。例如,在移动应用与后端服务集成任务中,模型不仅要生成代码补丁,还得审查并选择竞争提案。此外,用户工具可模拟真实用户互动,增强评估真实性,促使模型进行迭代调试和调整。

现有模型在SWE – Lancer中的表现

通过SWE – Lancer测试,研究人员对当前语言模型在软件工程领域的能力有了更深入认识。在个体贡献任务中,GPT – 4o和Claude3.5Sonnet等知名模型通过率分别仅为8.0%和26.2%。在管理任务方面,表现最佳的模型通过率也仅为44.9%。这些数据表明,尽管当下先进模型能提供一些有希望的解决方案,但仍有很大提升空间。

© 版权声明

相关文章

暂无评论

暂无评论...