DeNovoSWE：首个长程 Doc2Repo 训练集，让 Code Agent 学会造仓库

DeNovoSWE 是中国人民大学高瓴人工智能学院发布的长程软件工程数据集，专门训练 Code Agent 从一份文档出发，生成一个完整、可执行、可验证的软件仓库。它包含 4818 个真实任务实例，开源可训练、可评估。

这是 2026 年开源资源里值得 Code Agent 开发者关注的一份高质量数据。如果你正在训练或微调代码智能体，想让它的能力从「修 bug」跨到「造仓库」，DeNovoSWE 提供了一条可复用的路径。

它解决什么问题

过去一年，Code Agent 在 SWE-bench 这类真实软件工程任务上快速进步，但模型越来越擅长「改一个 issue、补几行 bug」后，一个关键问题开始浮现：智能体真的具备长程软件工程能力了吗？

真实世界的软件开发，往往不是改一个函数、补一个条件判断，而是：理解需求 → 规划架构 → 创建文件 → 设计 API → 处理依赖 → 打通模块 → 让整个仓库在测试中跑通。换句话说，难的是 long-horizon repository-level generation。从前沿模型在 BeyondSWE-Doc2Repo 和 NL2RepoBench 上的表现看，效果并不理想。

从文档重建整个仓库

核心机制：Divide & Conquer + Critic & Repair

DeNovoSWE 不是人工手写文档，而是通过一个 sandboxed multi-agent workflow 自动构建高质量实例，整体可概括为两步。

Divide 阶段：系统分析目标仓库，将其拆解为多个 repository capabilities（如认证与连接、数据读写、批处理、导出流程）。同时运行原始单元测试收集执行 trace，区分直接被测试调用的接口（必须详细记录）、影响可观察行为的核心间接组件（需要覆盖）、非核心内部实现（留给智能体自由发挥）。

Conquer 阶段：使用 Draft-Critic-Repair 机制逐能力生成文档——Draft agent 写初稿，Critic agent 检查是否遗漏关键 API 或行为契约，Repair agent 根据反馈修复。循环迭代直到每个能力章节足够清晰、完整、与 evaluation 对齐。

Divide & Conquer 流程

💡 提示：DeNovoSWE 的核心思想是让文档既可读、可实现，又可验证——描述 evaluation 所依赖的关键行为（import path、公开 API、输入输出、默认参数、异常行为、配置项、模式字符串、返回字段等），但不能变成实现代码的拷贝。

防泄漏与难度过滤

为了让智能体真正依赖文档而不是靠「记忆」复现代码，DeNovoSWE 在任务环境里做了严格清理：原始源码和测试被移除、git 历史被重置、缓存、site-packages 残留、pip wheel、临时编译产物等潜在泄漏渠道全部清除。

此外还提出 difficulty-aware trajectory filtering：容易任务要求更高通过率，困难任务则不因为没有达到完美分数就被全部丢弃。对于长程任务尤其重要——越复杂的仓库越难一次性完全通过所有测试，但其中困难仓库、低分、部分成功的轨迹仍包含宝贵的长程规划与实现能力。

实验结果

DeNovoSWE 最终构建了 4818 个高质量 document-to-repository 任务实例。实验显示，它对模型的长程仓库生成能力带来了显著提升：

模型 / 数据	BeyondSWE-Doc2Repo	NL2RepoBench
Qwen3-30B-A3B-Instruct（原始）	5.8%	4.3%
+ Scale-SWE-Agent（issue-level 数据）	29.2%	18.3%
+ DeNovoSWE	47.2%	23.0%

在更强的 Qwen3.5-35B-A3B backbone 上，DeNovoSWE 同样带来稳定收益：BeyondSWE-Doc2Repo 从 43.8% 提升到 50.0%，NL2RepoBench 从 23.5% 提升到 27.1%。这说明收益不是偶然适配某一个模型，而是来自高质量长程数据本身。