人大开源Claw Agent数据+训练+评测全链条框架,13.5K可执行任务,支持沙盒并行强化学习


人大开源Claw Agent数据+训练+评测全链条框架,13.5K可执行任务,支持沙盒并行强化学习
大模型正从"回答问题"走向"完成任务",但面向 Personal Agent(如 OpenClaw 这类桌面智能体)的数据构建、模型训练和能力评测,一直缺乏系统性的解决方案。中国人民大学和至知研究院开源的 ClawGym 提供了一个从数据合成到训练再到评测的完整闭环,是目前最全面的 OpenClaw 训练与评测资源。
ClawGym 是一个面向 Claw Agents 的一体化框架,系统连接数据合成、模型训练与可靠评测。它包含三个核心模块:

Claw-style 环境和传统的文本问答、网页浏览或简单工具调用有本质区别。Agent 面对的不是一个静态题目,而是一个由文件、目录、脚本、表格、配置、日志和外部工具组成的复杂工作区。
它需要在多轮交互中读取文件、运行命令、分析数据、修改文档、生成报告,并根据环境反馈不断调整行动。每一步操作都会改变工作区状态,后续决策又依赖这些中间状态。
任务是否完成,不取决于 Agent 说"我完成了",而取决于最终工作区是否真的被正确更新。
这带来四个核心挑战:
为了保证任务既贴近真实需求又真正可执行,ClawGym 用了两条互补的合成路线:
每个任务都有自动生成的轻量级 mock workspace(Markdown、JSON、CSV、YAML、配置文件等),提供执行过程中需要读取、分析、修改的内容。
ClawGym 通过 OpenClaw 黑盒 rollout 收集真实交互轨迹,而不是重新实现简化 agent loop。轨迹经过聚合、清洗和筛选后,平均包含:
基于这些轨迹对 Qwen3 系列模型进行 multi-turn SFT,得到三个模型:
| 模型 | 基座 | 特点 |
|---|---|---|
| ClawGym-4B | Qwen3-4B | 轻量级 |
| ClawGym-8B | Qwen3-8B | 均衡型 |
| ClawGym-30B-A3B | Qwen3-30B-A3B | 高性能 |
此外还探索了沙盒并行 RL:每个任务在独立 sandbox 中运行,用 code verifier 提供 outcome reward。实验表明 RL 在 SFT 基础上还能带来进一步提升。
ClawGym-Bench 包含 200 个经过严格筛选的任务,涵盖六类典型工作区场景:
每个任务都经过"大模型诊断式检查 + 人类审查"的双重审核,确保指令清晰、资源完整、验证可靠。
关键数据:
团队已开源五项核心资源:
GitHub 地址:https://github.com/ClawGym
ClawGym 的核心价值在于它不只关注模型能否"说出答案",而是系统性地关注模型能否在工作区中完成可检查、可验证的任务。对于 Personal Agent 来说,这是从对话能力走向执行能力的关键一步。