网站首页 > 技术文章 正文
IT之家 4 月 10 日消息,豆包大模型团队今日通过官方公众号宣布,首个多语言类 SWE 数据集 Multi-SWE-bench 现已正式开源,可用于评估和提升大模型“自动修 Bug”能力。
在 SWE-bench 基础上,Multi-SWE-bench 首次覆盖 Python 之外的 7 种主流编程语言,是真正面向“全栈工程”的评测基准。其数据均来自 GitHub issue,历时近一年构建,以尽可能准确测评和提高大模型高阶编程智能水平。
Multi-SWE-bench 旨在推动自动编程技术从仅能解决单一语言(如 Python)和低复杂度的任务,朝着支持多语言、具备真实问题解决能力的通用型智能体迈进。
SWE-bench 是当前最具代表性的代码修复评测基准,强调任务真实、难度高。它基于 GitHub issue,要求模型自动定位并修复 Bug,兼具跨文件修改、复杂语义推理与上下文理解等挑战。
Multi-SWE-bench 旨在补全现有同类基准语言覆盖方面的不足,系统性评估大模型在复杂开发环境下的“多语言泛化能力”,推动多语言软件开发 Agent 的评估与研究,其主要特性如下:
首次覆盖 7 种主流编程语言(包括 Java、Go、Rust、C、C++、TypeScript、JavaScript),构建多语言开发环境下的代码修复任务,系统评估模型的跨语言适应与泛化能力;
引入任务难度分级机制,将问题划分为简单(Easy)、中等(Medium)和困难(Hard)三类,涵盖从一行修改到多文件、多步骤、多语义依赖的开发挑战;
1,632 个实例全部来源于真实开源仓库,并经过统一的测试标准和专业开发者的审核筛选,确保每个样本具备清晰的问题描述、正确的修复补丁以及可复现的运行测试环境。
IT之家附开源链接:
Multi-SWE-bench: A Multilingual Benchmark for Issue Resolving:
论文链接:https://arxiv.org/ abs / 2504.02605
榜单链接:https://multi-swe-bench.github.io
代码链接:https://github.com/ multi-swe-bench / multi-swe-bench
数据链接:https://huggingface.co/ datasets / ByteDance-Seed / Multi-SWE-bench
猜你喜欢
- 2025-08-06 什么是高级驾驶辅助系统:ADAS 概述
- 2025-08-06 C语言实现:见缝插针游戏!代码思路+源码分享
- 2025-08-06 机器人首次打通视觉感知与运动断层,华人博士让宇树G1现场演示
- 2025-08-06 一文详解如何利用 Arm i8mm 指令优化
- 2025-08-06 DBSCAN聚类算法的理解与应用
- 2025-08-06 人形机器人首次打通视觉感知与运动断层,UC伯克利华人博士让宇树G1现场演示
- 2025-08-06 小美的陡峭值操作【C++实现】
- 2025-08-06 C++性能优化:分支预测
- 2025-05-22 嵌入式C语言常用的5类预处理
- 2025-05-22 微软开源“原生1bit”三进制LLM:2B参数,0.4GB内存/单CPU就能跑
- 08-06中等生如何学好初二数学函数篇
- 08-06C#构造函数
- 08-06初中数学:一次函数学习要点和方法
- 08-06仓颉编程语言基础-数据类型—结构类型
- 08-06C++实现委托机制
- 08-06初中VS高中三角函数:从"固定镜头"到"360°全景",数学视野升级
- 08-06一文讲透PLC中Static和Temp变量的区别
- 08-06类三剑客:一招修改所有对象!类方法与静态方法的核心区别!
- 最近发表
- 标签列表
-
- cmd/c (90)
- c++中::是什么意思 (84)
- 标签用于 (71)
- 主键只能有一个吗 (77)
- c#console.writeline不显示 (95)
- pythoncase语句 (88)
- es6includes (74)
- sqlset (76)
- windowsscripthost (69)
- apt-getinstall-y (100)
- node_modules怎么生成 (87)
- chromepost (71)
- flexdirection (73)
- c++int转char (80)
- mysqlany_value (79)
- static函数和普通函数 (84)
- el-date-picker开始日期早于结束日期 (70)
- asynccallback (71)
- localstorage.removeitem (74)
- vector线程安全吗 (70)
- java (73)
- js数组插入 (83)
- mac安装java (72)
- 查看mysql是否启动 (70)
- 无效的列索引 (74)