字节跳动发布Multi-SWE-bench:首个用于评估大模型自动修复Bug能力的多语言数据集
2025-04-10 14:26
4月10日,字节跳动豆包大模型团队正式发布了Multi-SWE-bench,这是一个全新的多语言类SWE数据集,旨在评估和提升大模型的自动修复Bug能力。该数据集基于SWE-bench构建,首次涵盖了除Python以外的7种主流编程语言,成为真正面向全栈工程的评测基准。Multi-SWE-bench的数据来源于GitHub issue,经过近一年的时间精心构建,旨在准确地评估和提高大模型的高阶编程智能水平。
浏览
10评论
