toolin.ai logo
toolin.ai
首页
AI工具
AI技能包
AI资讯
精选推文
AI提示词
提交AI工具提交
toolin.ai logo
toolin.ai

百万AI玩家的创作利器库,发现最佳AI工具组合,提升您的创作效率

AI工具1,323个
技能包11个
产品功能
  • AI工具
  • AI技能包
  • AI资讯
  • 精选推文
关于我们
  • 关于Toolin
  • 联系我们
  • 合作洽谈
  • 更新日志
关注我们
© 2025 toolin.ai. All rights reserved.
服务条款隐私政策

DeNovoSWE:首个长程 Doc2Repo 训练集,让 Code Agent 学会造仓库

2026/06/27
·toolin小编

人大高瓴学院发布 DeNovoSWE 数据集,4818 个真实任务实例训练 Code Agent 从文档生成完整仓库,Qwen3-30B 在 BeyondSWE-Doc2Repo 上从 5.8% 提升到 47.2%。

DeNovoSWE:首个长程 Doc2Repo 训练集,让 Code Agent 学会造仓库
DeNovoSWE:首个长程 Doc2Repo 训练集,让 Code Agent 学会造仓库
2026/06/27

DeNovoSWE:首个长程 Doc2Repo 训练集,让 Code Agent 学会造仓库

人大高瓴学院发布 DeNovoSWE 数据集,4818 个真实任务实例训练 Code Agent 从文档生成完整仓库,Qwen3-30B 在 BeyondSWE-Doc2Repo 上从 5.8% 提升到 47.2%。

它解决什么问题核心机制:Divide & Conquer + Critic & Repair防泄漏与难度过滤实验结果资源链接适用人群
AI产品

DeNovoSWE 是中国人民大学高瓴人工智能学院发布的长程软件工程数据集,专门训练 Code Agent 从一份文档出发,生成一个完整、可执行、可验证的软件仓库。它包含 4818 个真实任务实例,开源可训练、可评估。

这是 2026 年开源资源里值得 Code Agent 开发者关注的一份高质量数据。如果你正在训练或微调代码智能体,想让它的能力从「修 bug」跨到「造仓库」,DeNovoSWE 提供了一条可复用的路径。

它解决什么问题

过去一年,Code Agent 在 SWE-bench 这类真实软件工程任务上快速进步,但模型越来越擅长「改一个 issue、补几行 bug」后,一个关键问题开始浮现:智能体真的具备长程软件工程能力了吗?

真实世界的软件开发,往往不是改一个函数、补一个条件判断,而是:理解需求 → 规划架构 → 创建文件 → 设计 API → 处理依赖 → 打通模块 → 让整个仓库在测试中跑通。换句话说,难的是 long-horizon repository-level generation。从前沿模型在 BeyondSWE-Doc2Repo 和 NL2RepoBench 上的表现看,效果并不理想。

从文档重建整个仓库

核心机制:Divide & Conquer + Critic & Repair

DeNovoSWE 不是人工手写文档,而是通过一个 sandboxed multi-agent workflow 自动构建高质量实例,整体可概括为两步。

Divide 阶段:系统分析目标仓库,将其拆解为多个 repository capabilities(如认证与连接、数据读写、批处理、导出流程)。同时运行原始单元测试收集执行 trace,区分直接被测试调用的接口(必须详细记录)、影响可观察行为的核心间接组件(需要覆盖)、非核心内部实现(留给智能体自由发挥)。

Conquer 阶段:使用 Draft-Critic-Repair 机制逐能力生成文档——Draft agent 写初稿,Critic agent 检查是否遗漏关键 API 或行为契约,Repair agent 根据反馈修复。循环迭代直到每个能力章节足够清晰、完整、与 evaluation 对齐。

Divide & Conquer 流程

💡 提示:DeNovoSWE 的核心思想是让文档既可读、可实现,又可验证——描述 evaluation 所依赖的关键行为(import path、公开 API、输入输出、默认参数、异常行为、配置项、模式字符串、返回字段等),但不能变成实现代码的拷贝。

防泄漏与难度过滤

为了让智能体真正依赖文档而不是靠「记忆」复现代码,DeNovoSWE 在任务环境里做了严格清理:原始源码和测试被移除、git 历史被重置、缓存、site-packages 残留、pip wheel、临时编译产物等潜在泄漏渠道全部清除。

此外还提出 difficulty-aware trajectory filtering:容易任务要求更高通过率,困难任务则不因为没有达到完美分数就被全部丢弃。对于长程任务尤其重要——越复杂的仓库越难一次性完全通过所有测试,但其中困难仓库、低分、部分成功的轨迹仍包含宝贵的长程规划与实现能力。

实验结果

DeNovoSWE 最终构建了 4818 个高质量 document-to-repository 任务实例。实验显示,它对模型的长程仓库生成能力带来了显著提升:

模型 / 数据BeyondSWE-Doc2RepoNL2RepoBench
Qwen3-30B-A3B-Instruct(原始)5.8%4.3%
+ Scale-SWE-Agent(issue-level 数据)29.2%18.3%
+ DeNovoSWE47.2%23.0%

在更强的 Qwen3.5-35B-A3B backbone 上,DeNovoSWE 同样带来稳定收益:BeyondSWE-Doc2Repo 从 43.8% 提升到 50.0%,NL2RepoBench 从 23.5% 提升到 27.1%。这说明收益不是偶然适配某一个模型,而是来自高质量长程数据本身。

💡 提示:面向「修 bug」的数据并不能完全替代面向「生成完整仓库」的长程数据。想让智能体真正学会 repository-level engineering,需要专门面向长程任务构建训练环境。

资源链接

  • 论文:https://arxiv.org/pdf/2606.10728
  • 代码仓库:https://github.com/AweAI-Team/DeNovoSWE
  • 数据集:https://huggingface.co/collections/AweAI-Team/denovoswe

适用人群

  • 正在训练或微调 Code Agent 的研究者和工程师
  • 关注长程任务(long-horizon)benchmark 的团队
  • 想把代码智能体从「仓库维护者」升级为「架构师」的实践者
所有文章

作者

avatar for toolin小编
toolin小编

分类

  • AI产品
它解决什么问题核心机制:Divide & Conquer + Critic & Repair防泄漏与难度过滤实验结果资源链接适用人群

相关文章

百度搭子 DuMate 实操指南:从安装到自动化办公全流程
AI教程

百度搭子 DuMate 实操指南:从安装到自动化办公全流程

百度搭子 DuMate 是国产通用办公智能体,支持 Mac/Windows/移动端,通过「提需求→授权→执行→交付」链路连接飞书、Chrome、携程等应用,并支持定时自动化任务。

avatar for toolin小编
toolin小编
2天前
Hyper3D Rodin Gen-2.5:4 秒百万面,3D 生成引入 Thinking 机制
AI产品

Hyper3D Rodin Gen-2.5:4 秒百万面,3D 生成引入 Thinking 机制

影眸科技发布 Hyper3D Rodin Gen-2.5,首次在 3D 生成中引入类 LLM Thinking 机制,4 秒生成百万面模型,突破千万面精度与 12K 原生贴图。

avatar for toolin小编
toolin小编
1天前
微信「小微」AI 助手实测:12 个入口覆盖聊天、内容、文档全场景
AI产品

微信「小微」AI 助手实测:12 个入口覆盖聊天、内容、文档全场景

微信原生 AI 助手「小微」灰度测试中,主模型为自研 WeLM,可检索聊天记录、总结公众号文章、调用本地生活服务,涉及敏感操作需二次确认。

avatar for toolin小编
toolin小编
2天前