toolin.ai logo
toolin.ai
首页
AI工具
AI技能包
AI资讯
精选推文
AI提示词
提交AI工具提交
toolin.ai logo
toolin.ai

百万AI玩家的创作利器库,发现最佳AI工具组合,提升您的创作效率

AI工具1,182个
技能包11个
产品功能
  • AI工具
  • AI技能包
  • AI资讯
  • 精选推文
关于我们
  • 关于Toolin
  • 联系我们
  • 合作洽谈
  • 更新日志
关注我们
© 2025 toolin.ai. All rights reserved.
服务条款隐私政策

ClawGym:Agent训练评测一体化开源框架

2026/05/31
·toolin小编

人大开源Claw Agent数据+训练+评测全链条框架,13.5K可执行任务,支持沙盒并行强化学习

ClawGym:Agent训练评测一体化开源框架
ClawGym:Agent训练评测一体化开源框架
2026/05/31

ClawGym:Agent训练评测一体化开源框架

人大开源Claw Agent数据+训练+评测全链条框架,13.5K可执行任务,支持沙盒并行强化学习

ClawGym 是什么为什么需要专门的 Agent 框架ClawGym-SynData:13.5K 可执行任务双路线任务合成自动生成 Mock Workspace混合验证机制ClawGym-Agents:从真实轨迹中训练ClawGym-Bench:200 个精选评测任务实验结果已开源资源适用场景
AI产品

大模型正从"回答问题"走向"完成任务",但面向 Personal Agent(如 OpenClaw 这类桌面智能体)的数据构建、模型训练和能力评测,一直缺乏系统性的解决方案。中国人民大学和至知研究院开源的 ClawGym 提供了一个从数据合成到训练再到评测的完整闭环,是目前最全面的 OpenClaw 训练与评测资源。

ClawGym 是什么

ClawGym 是一个面向 Claw Agents 的一体化框架,系统连接数据合成、模型训练与可靠评测。它包含三个核心模块:

  • ClawGym-SynData:首个面向 Claw Agents 的大规模合成数据集,包含 13.5K 个可执行任务
  • ClawGym-Agents:基于 OpenClaw 黑盒执行轨迹训练 Agent,探索沙盒并行强化学习
  • ClawGym-Bench:200 个高质量任务的评测基准,覆盖六类工作区场景

ClawGym框架总览

  • GitHub:https://github.com/ClawGym

为什么需要专门的 Agent 框架

Claw-style 环境和传统的文本问答、网页浏览或简单工具调用有本质区别。Agent 面对的不是一个静态题目,而是一个由文件、目录、脚本、表格、配置、日志和外部工具组成的复杂工作区。

它需要在多轮交互中读取文件、运行命令、分析数据、修改文档、生成报告,并根据环境反馈不断调整行动。每一步操作都会改变工作区状态,后续决策又依赖这些中间状态。

任务是否完成,不取决于 Agent 说"我完成了",而取决于最终工作区是否真的被正确更新。

这带来四个核心挑战:

  • 任务难构造:需要覆盖真实工作流和可执行操作,不能只是生成一个 prompt
  • 轨迹难采集:需要从黑盒执行日志中还原高质量训练轨迹
  • 训练难稳定:强化学习阶段需要在大量独立沙盒中并发 rollout
  • 奖励难定义:需要验证文件、结构、数值和多维产物质量

ClawGym-SynData:13.5K 可执行任务

双路线任务合成

为了保证任务既贴近真实需求又真正可执行,ClawGym 用了两条互补的合成路线:

  1. Persona-driven 自顶向下:从"用户想做什么"出发,构建用户画像、工作场景和原子操作组合,生成贴近真实办公场景的任务
  2. Skill-grounded 自底向上:从"系统能做什么"出发,从 OpenClaw skills 中提取可复用工具能力,确保任务落得到可运行的操作上

自动生成 Mock Workspace

每个任务都有自动生成的轻量级 mock workspace(Markdown、JSON、CSV、YAML、配置文件等),提供执行过程中需要读取、分析、修改的内容。

混合验证机制

  • Code-based verification:检查文件路径、schema、数值计算、过滤规则等客观正确性
  • Rubric-based verification:评估报告清晰度、摘要忠实度、表达专业性等主观质量

ClawGym-Agents:从真实轨迹中训练

ClawGym 通过 OpenClaw 黑盒 rollout 收集真实交互轨迹,而不是重新实现简化 agent loop。轨迹经过聚合、清洗和筛选后,平均包含:

  • 13.00 轮交互
  • 18.67K tokens
  • 15.82 次工具调用
  • 3.25 种工具类型

基于这些轨迹对 Qwen3 系列模型进行 multi-turn SFT,得到三个模型:

模型基座特点
ClawGym-4BQwen3-4B轻量级
ClawGym-8BQwen3-8B均衡型
ClawGym-30B-A3BQwen3-30B-A3B高性能

此外还探索了沙盒并行 RL:每个任务在独立 sandbox 中运行,用 code verifier 提供 outcome reward。实验表明 RL 在 SFT 基础上还能带来进一步提升。

ClawGym-Bench:200 个精选评测任务

ClawGym-Bench 包含 200 个经过严格筛选的任务,涵盖六类典型工作区场景:

  • 生产力与协作
  • 系统与自动化
  • 分析与推理
  • 内容与领域支持
  • 规划与知识管理
  • 软件开发

每个任务都经过"大模型诊断式检查 + 人类审查"的双重审核,确保指令清晰、资源完整、验证可靠。

实验结果

关键数据:

  • ClawGym-4B、8B、30B-A3B 在 ClawGym-Bench 上分别达到 47.73、50.24、56.82,均超过对应基座模型
  • ClawGym-30B-A3B 超过了规模更大的 Qwen3-235B-A23B,说明高质量 Agent 数据能弥补模型规模
  • 仅用 ClawGym-SynData 训练,在外部基准 PinchBench 上也取得明显提升(ClawGym-30B-A3B 达到 86.00),证明学到的不是任务模板而是可迁移的执行能力

已开源资源

团队已开源五项核心资源:

  1. ClawGym-Bench 评测数据
  2. 评测代码
  3. ClawGym-Agents 模型检查点
  4. 训练数据
  5. 训练代码

GitHub 地址:https://github.com/ClawGym

适用场景

  • Agent 研究者:提供完整的训练数据和评测基准
  • 模型开发者:可直接用 ClawGym-SynData 做多轮 SFT 和 RL
  • Agent 产品团队:用 ClawGym-Bench 评估不同模型的实际执行能力
  • 开源社区:基于 ClawGym 框架扩展更多任务类型和评测维度

ClawGym 的核心价值在于它不只关注模型能否"说出答案",而是系统性地关注模型能否在工作区中完成可检查、可验证的任务。对于 Personal Agent 来说,这是从对话能力走向执行能力的关键一步。

所有文章

作者

avatar for toolin小编
toolin小编

分类

  • AI产品
ClawGym 是什么为什么需要专门的 Agent 框架ClawGym-SynData:13.5K 可执行任务双路线任务合成自动生成 Mock Workspace混合验证机制ClawGym-Agents:从真实轨迹中训练ClawGym-Bench:200 个精选评测任务实验结果已开源资源适用场景

相关文章

Gamma-World:开源多智能体世界模型
AI产品

Gamma-World:开源多智能体世界模型

NVIDIA联合清华开源多智能体世界模型,双人训练直接泛化到四人,支持零样本多人场景实时推演

avatar for toolin小编
toolin小编
16小时前
SenseNova U1:开源信息图生成模型,8B 参数单卡可跑
AI产品

SenseNova U1:开源信息图生成模型,8B 参数单卡可跑

商汤开源的 8B 参数信息图生成模型,Apache 2.0 协议支持商用,文字渲染稳定、版面控制精准,成本约为闭源方案的十分之一。

avatar for toolin小编
toolin小编
1天前
Codex Computer Use登陆Windows实操指南
AI教程

Codex Computer Use登陆Windows实操指南

OpenAI Codex正式支持Windows电脑操作,附完整开启步骤、限制说明和手机远程控制方法

avatar for toolin小编
toolin小编
16小时前