SWE – Lancer：突破传统，重塑软件工程基准测试

字数 922，阅读大约需 5 分钟

传统基准测试的困境

在快速发展的人工智能与软件工程领域，传统基准测试方法难以满足复杂多变的行业需求。如今，自由职业的软件工程工作极为复杂，工程师不仅要处理孤立的编码任务，还需驾驭整个代码库，集成多种系统，满足客户复杂需求。

然而，传统评估方法多局限于单元测试，无法全面反映全栈性能及解决方案在实际应用中的经济影响。据相关报告显示，过去五年，随着软件项目规模和复杂度提升，传统单元测试评估整体项目质量的准确率从70%降至50%左右，开发更有效的评估方法迫在眉睫。

SWE – Lancer基准测试的诞生

为填补这一空白，OpenAI打造了SWE – Lancer基准测试。该测试基于Upwork和Expensify存储库的1400多个自由职业任务，这些任务总支付金额达100万美元。任务类型多样，涵盖自由软件工程工作的各个方面，从修复微小bug到实现大型功能。

SWE – Lancer的独特亮点

创新评估方式

SWE – Lancer的核心在于创新评估方式。它不仅评估个别代码补丁，还考量管理决策。模型需从多个选项中挑选最佳提案，模拟真实工程团队中技术与管理能力兼具的角色。

端到端测试

与传统孤立单元测试不同，SWE – Lancer采用端到端测试。这些测试由专业软件工程师设计并验证，模拟从问题识别、调试到补丁验证的完整用户工作流程。例如，在电商平台测试任务中，从用户发现商品展示异常，到工程师定位问题、编写代码补丁，再到验证补丁是否解决问题，整个过程都在测试范围内。并且，通过统一的Docker镜像评估，确保每个模型在相同受控条件下接受考验，检验模型解决方案的稳健性与实际部署潜力。

高度还原真实工作场景

SWE – Lancer的技术细节设计巧妙，充分反映自由职业工作实际情况。任务要求修改多个文件、与API集成，兼顾移动和Web平台。例如，在移动应用与后端服务集成任务中，模型不仅要生成代码补丁，还得审查并选择竞争提案。此外，用户工具可模拟真实用户互动，增强评估真实性，促使模型进行迭代调试和调整。

现有模型在SWE – Lancer中的表现

通过SWE – Lancer测试，研究人员对当前语言模型在软件工程领域的能力有了更深入认识。在个体贡献任务中，GPT – 4o和Claude3.5Sonnet等知名模型通过率分别仅为8.0%和26.2%。在管理任务方面，表现最佳的模型通过率也仅为44.9%。这些数据表明，尽管当下先进模型能提供一些有希望的解决方案，但仍有很大提升空间。

# AI快讯

文章版权归作者所有，未经允许请勿转载。

暂无评论

暂无评论...