ClawGym：Agent训练评测一体化开源框架

大模型正从"回答问题"走向"完成任务"，但面向 Personal Agent（如 OpenClaw 这类桌面智能体）的数据构建、模型训练和能力评测，一直缺乏系统性的解决方案。中国人民大学和至知研究院开源的 ClawGym 提供了一个从数据合成到训练再到评测的完整闭环，是目前最全面的 OpenClaw 训练与评测资源。

ClawGym 是什么

ClawGym 是一个面向 Claw Agents 的一体化框架，系统连接数据合成、模型训练与可靠评测。它包含三个核心模块：

ClawGym-SynData：首个面向 Claw Agents 的大规模合成数据集，包含 13.5K 个可执行任务
ClawGym-Agents：基于 OpenClaw 黑盒执行轨迹训练 Agent，探索沙盒并行强化学习
ClawGym-Bench：200 个高质量任务的评测基准，覆盖六类工作区场景

ClawGym框架总览

GitHub：https://github.com/ClawGym

为什么需要专门的 Agent 框架

Claw-style 环境和传统的文本问答、网页浏览或简单工具调用有本质区别。Agent 面对的不是一个静态题目，而是一个由文件、目录、脚本、表格、配置、日志和外部工具组成的复杂工作区。

它需要在多轮交互中读取文件、运行命令、分析数据、修改文档、生成报告，并根据环境反馈不断调整行动。每一步操作都会改变工作区状态，后续决策又依赖这些中间状态。

任务是否完成，不取决于 Agent 说"我完成了"，而取决于最终工作区是否真的被正确更新。

这带来四个核心挑战：

任务难构造：需要覆盖真实工作流和可执行操作，不能只是生成一个 prompt
轨迹难采集：需要从黑盒执行日志中还原高质量训练轨迹
训练难稳定：强化学习阶段需要在大量独立沙盒中并发 rollout
奖励难定义：需要验证文件、结构、数值和多维产物质量

ClawGym-SynData：13.5K 可执行任务

双路线任务合成

为了保证任务既贴近真实需求又真正可执行，ClawGym 用了两条互补的合成路线：

Persona-driven 自顶向下：从"用户想做什么"出发，构建用户画像、工作场景和原子操作组合，生成贴近真实办公场景的任务
Skill-grounded 自底向上：从"系统能做什么"出发，从 OpenClaw skills 中提取可复用工具能力，确保任务落得到可运行的操作上

自动生成 Mock Workspace

每个任务都有自动生成的轻量级 mock workspace（Markdown、JSON、CSV、YAML、配置文件等），提供执行过程中需要读取、分析、修改的内容。

混合验证机制

Code-based verification：检查文件路径、schema、数值计算、过滤规则等客观正确性
Rubric-based verification：评估报告清晰度、摘要忠实度、表达专业性等主观质量

ClawGym-Agents：从真实轨迹中训练

ClawGym 通过 OpenClaw 黑盒 rollout 收集真实交互轨迹，而不是重新实现简化 agent loop。轨迹经过聚合、清洗和筛选后，平均包含：

13.00 轮交互
18.67K tokens
15.82 次工具调用
3.25 种工具类型

基于这些轨迹对 Qwen3 系列模型进行 multi-turn SFT，得到三个模型：

模型	基座	特点
ClawGym-4B	Qwen3-4B	轻量级
ClawGym-8B	Qwen3-8B	均衡型
ClawGym-30B-A3B	Qwen3-30B-A3B	高性能

此外还探索了沙盒并行 RL：每个任务在独立 sandbox 中运行，用 code verifier 提供 outcome reward。实验表明 RL 在 SFT 基础上还能带来进一步提升。

ClawGym-Bench：200 个精选评测任务

ClawGym-Bench 包含 200 个经过严格筛选的任务，涵盖六类典型工作区场景：

生产力与协作
系统与自动化
分析与推理
内容与领域支持
规划与知识管理
软件开发

每个任务都经过"大模型诊断式检查 + 人类审查"的双重审核，确保指令清晰、资源完整、验证可靠。

实验结果

关键数据：

ClawGym-4B、8B、30B-A3B 在 ClawGym-Bench 上分别达到 47.73、50.24、56.82，均超过对应基座模型
ClawGym-30B-A3B 超过了规模更大的 Qwen3-235B-A23B，说明高质量 Agent 数据能弥补模型规模
仅用 ClawGym-SynData 训练，在外部基准 PinchBench 上也取得明显提升（ClawGym-30B-A3B 达到 86.00），证明学到的不是任务模板而是可迁移的执行能力

已开源资源

团队已开源五项核心资源：

ClawGym-Bench 评测数据
评测代码
ClawGym-Agents 模型检查点
训练数据
训练代码

GitHub 地址：https://github.com/ClawGym

适用场景

Agent 研究者：提供完整的训练数据和评测基准
模型开发者：可直接用 ClawGym-SynData 做多轮 SFT 和 RL
Agent 产品团队：用 ClawGym-Bench 评估不同模型的实际执行能力
开源社区：基于 ClawGym 框架扩展更多任务类型和评测维度

ClawGym 的核心价值在于它不只关注模型能否"说出答案"，而是系统性地关注模型能否在工作区中完成可检查、可验证的任务。对于 Personal Agent 来说，这是从对话能力走向执行能力的关键一步。

ClawGym 是什么

ClawGym 是一个面向 Claw Agents 的一体化框架，系统连接数据合成、模型训练与可靠评测。它包含三个核心模块：

ClawGym-SynData：首个面向 Claw Agents 的大规模合成数据集，包含 13.5K 个可执行任务
ClawGym-Agents：基于 OpenClaw 黑盒执行轨迹训练 Agent，探索沙盒并行强化学习
ClawGym-Bench：200 个高质量任务的评测基准，覆盖六类工作区场景

ClawGym框架总览

GitHub：https://github.com/ClawGym

为什么需要专门的 Agent 框架

任务是否完成，不取决于 Agent 说"我完成了"，而取决于最终工作区是否真的被正确更新。

这带来四个核心挑战：

任务难构造：需要覆盖真实工作流和可执行操作，不能只是生成一个 prompt
轨迹难采集：需要从黑盒执行日志中还原高质量训练轨迹
训练难稳定：强化学习阶段需要在大量独立沙盒中并发 rollout
奖励难定义：需要验证文件、结构、数值和多维产物质量

ClawGym-SynData：13.5K 可执行任务

双路线任务合成

为了保证任务既贴近真实需求又真正可执行，ClawGym 用了两条互补的合成路线：

Persona-driven 自顶向下：从"用户想做什么"出发，构建用户画像、工作场景和原子操作组合，生成贴近真实办公场景的任务
Skill-grounded 自底向上：从"系统能做什么"出发，从 OpenClaw skills 中提取可复用工具能力，确保任务落得到可运行的操作上

自动生成 Mock Workspace

每个任务都有自动生成的轻量级 mock workspace（Markdown、JSON、CSV、YAML、配置文件等），提供执行过程中需要读取、分析、修改的内容。

混合验证机制

Code-based verification：检查文件路径、schema、数值计算、过滤规则等客观正确性
Rubric-based verification：评估报告清晰度、摘要忠实度、表达专业性等主观质量

ClawGym-Agents：从真实轨迹中训练

ClawGym 通过 OpenClaw 黑盒 rollout 收集真实交互轨迹，而不是重新实现简化 agent loop。轨迹经过聚合、清洗和筛选后，平均包含：

13.00 轮交互
18.67K tokens
15.82 次工具调用
3.25 种工具类型

基于这些轨迹对 Qwen3 系列模型进行 multi-turn SFT，得到三个模型：

模型	基座	特点
ClawGym-4B	Qwen3-4B	轻量级
ClawGym-8B	Qwen3-8B	均衡型
ClawGym-30B-A3B	Qwen3-30B-A3B	高性能

此外还探索了沙盒并行 RL：每个任务在独立 sandbox 中运行，用 code verifier 提供 outcome reward。实验表明 RL 在 SFT 基础上还能带来进一步提升。

ClawGym-Bench：200 个精选评测任务

ClawGym-Bench 包含 200 个经过严格筛选的任务，涵盖六类典型工作区场景：

生产力与协作
系统与自动化
分析与推理
内容与领域支持
规划与知识管理
软件开发

每个任务都经过"大模型诊断式检查 + 人类审查"的双重审核，确保指令清晰、资源完整、验证可靠。

实验结果

关键数据：

ClawGym-4B、8B、30B-A3B 在 ClawGym-Bench 上分别达到 47.73、50.24、56.82，均超过对应基座模型
ClawGym-30B-A3B 超过了规模更大的 Qwen3-235B-A23B，说明高质量 Agent 数据能弥补模型规模
仅用 ClawGym-SynData 训练，在外部基准 PinchBench 上也取得明显提升（ClawGym-30B-A3B 达到 86.00），证明学到的不是任务模板而是可迁移的执行能力

已开源资源

团队已开源五项核心资源：

ClawGym-Bench 评测数据
评测代码
ClawGym-Agents 模型检查点
训练数据
训练代码

GitHub 地址：https://github.com/ClawGym

适用场景

Agent 研究者：提供完整的训练数据和评测基准
模型开发者：可直接用 ClawGym-SynData 做多轮 SFT 和 RL
Agent 产品团队：用 ClawGym-Bench 评估不同模型的实际执行能力
开源社区：基于 ClawGym 框架扩展更多任务类型和评测维度

全部

AI教程

AI产品

AI资源

ClawGym：Agent训练评测一体化开源框架

ClawGym：Agent训练评测一体化开源框架

作者

分类

相关文章

OpenAI 突袭发布 GPT-5.4 mini 和 nano：1/3 价格，性能逼近满血版

全球首个应用开发 Skill：让 AI Agent 一句话生成可上线的商用应用

阿里「悟空」发布：全球首个企业级AI原生工作平台，钉钉8亿用户的AI迁徙

ClawGym：Agent训练评测一体化开源框架

ClawGym：Agent训练评测一体化开源框架

作者

分类

相关文章

OpenAI 突袭发布 GPT-5.4 mini 和 nano：1/3 价格，性能逼近满血版

全球首个应用开发 Skill：让 AI Agent 一句话生成可上线的商用应用

阿里「悟空」发布：全球首个企业级AI原生工作平台，钉钉8亿用户的AI迁徙