人大高瓴学院发布 DeNovoSWE 数据集,4818 个真实任务实例训练 Code Agent 从文档生成完整仓库,Qwen3-30B 在 BeyondSWE-Doc2Repo 上从 5.8% 提升到 47.2%。


人大高瓴学院发布 DeNovoSWE 数据集,4818 个真实任务实例训练 Code Agent 从文档生成完整仓库,Qwen3-30B 在 BeyondSWE-Doc2Repo 上从 5.8% 提升到 47.2%。
DeNovoSWE 是中国人民大学高瓴人工智能学院发布的长程软件工程数据集,专门训练 Code Agent 从一份文档出发,生成一个完整、可执行、可验证的软件仓库。它包含 4818 个真实任务实例,开源可训练、可评估。
这是 2026 年开源资源里值得 Code Agent 开发者关注的一份高质量数据。如果你正在训练或微调代码智能体,想让它的能力从「修 bug」跨到「造仓库」,DeNovoSWE 提供了一条可复用的路径。
过去一年,Code Agent 在 SWE-bench 这类真实软件工程任务上快速进步,但模型越来越擅长「改一个 issue、补几行 bug」后,一个关键问题开始浮现:智能体真的具备长程软件工程能力了吗?
真实世界的软件开发,往往不是改一个函数、补一个条件判断,而是:理解需求 → 规划架构 → 创建文件 → 设计 API → 处理依赖 → 打通模块 → 让整个仓库在测试中跑通。换句话说,难的是 long-horizon repository-level generation。从前沿模型在 BeyondSWE-Doc2Repo 和 NL2RepoBench 上的表现看,效果并不理想。

DeNovoSWE 不是人工手写文档,而是通过一个 sandboxed multi-agent workflow 自动构建高质量实例,整体可概括为两步。
Divide 阶段:系统分析目标仓库,将其拆解为多个 repository capabilities(如认证与连接、数据读写、批处理、导出流程)。同时运行原始单元测试收集执行 trace,区分直接被测试调用的接口(必须详细记录)、影响可观察行为的核心间接组件(需要覆盖)、非核心内部实现(留给智能体自由发挥)。
Conquer 阶段:使用 Draft-Critic-Repair 机制逐能力生成文档——Draft agent 写初稿,Critic agent 检查是否遗漏关键 API 或行为契约,Repair agent 根据反馈修复。循环迭代直到每个能力章节足够清晰、完整、与 evaluation 对齐。

💡 提示:DeNovoSWE 的核心思想是让文档既可读、可实现,又可验证——描述 evaluation 所依赖的关键行为(import path、公开 API、输入输出、默认参数、异常行为、配置项、模式字符串、返回字段等),但不能变成实现代码的拷贝。
为了让智能体真正依赖文档而不是靠「记忆」复现代码,DeNovoSWE 在任务环境里做了严格清理:原始源码和测试被移除、git 历史被重置、缓存、site-packages 残留、pip wheel、临时编译产物等潜在泄漏渠道全部清除。
此外还提出 difficulty-aware trajectory filtering:容易任务要求更高通过率,困难任务则不因为没有达到完美分数就被全部丢弃。对于长程任务尤其重要——越复杂的仓库越难一次性完全通过所有测试,但其中困难仓库、低分、部分成功的轨迹仍包含宝贵的长程规划与实现能力。
DeNovoSWE 最终构建了 4818 个高质量 document-to-repository 任务实例。实验显示,它对模型的长程仓库生成能力带来了显著提升:
| 模型 / 数据 | BeyondSWE-Doc2Repo | NL2RepoBench |
|---|---|---|
| Qwen3-30B-A3B-Instruct(原始) | 5.8% | 4.3% |
| + Scale-SWE-Agent(issue-level 数据) | 29.2% | 18.3% |
| + DeNovoSWE | 47.2% | 23.0% |
在更强的 Qwen3.5-35B-A3B backbone 上,DeNovoSWE 同样带来稳定收益:BeyondSWE-Doc2Repo 从 43.8% 提升到 50.0%,NL2RepoBench 从 23.5% 提升到 27.1%。这说明收益不是偶然适配某一个模型,而是来自高质量长程数据本身。
💡 提示:面向「修 bug」的数据并不能完全替代面向「生成完整仓库」的长程数据。想让智能体真正学会 repository-level engineering,需要专门面向长程任务构建训练环境。

百度搭子 DuMate 是国产通用办公智能体,支持 Mac/Windows/移动端,通过「提需求→授权→执行→交付」链路连接飞书、Chrome、携程等应用,并支持定时自动化任务。

影眸科技发布 Hyper3D Rodin Gen-2.5,首次在 3D 生成中引入类 LLM Thinking 机制,4 秒生成百万面模型,突破千万面精度与 12K 原生贴图。

微信原生 AI 助手「小微」灰度测试中,主模型为自研 WeLM,可检索聊天记录、总结公众号文章、调用本地生活服务,涉及敏感操作需二次确认。