toolin.ai logo
toolin.ai
首页
AI工具
AI技能包
AI资讯
精选推文
AI提示词
提交AI工具提交
toolin.ai logo
toolin.ai

百万AI玩家的创作利器库,发现最佳AI工具组合,提升您的创作效率

AI工具1,273个
技能包11个
产品功能
  • AI工具
  • AI技能包
  • AI资讯
  • 精选推文
关于我们
  • 关于Toolin
  • 联系我们
  • 合作洽谈
  • 更新日志
关注我们
© 2025 toolin.ai. All rights reserved.
服务条款隐私政策

PawBench: 开源Agent评测基准,4050个测试单元帮你选模型和框架

2026/06/05
·toolin小编

PawBench v1.0构建150道任务、4050个测试单元的Agent评测集,将底座模型与运行框架纳入同一体系,帮你找到模型+Harness最佳组合。

PawBench: 开源Agent评测基准,4050个测试单元帮你选模型和框架
PawBench: 开源Agent评测基准,4050个测试单元帮你选模型和框架
2026/06/05

PawBench: 开源Agent评测基准,4050个测试单元帮你选模型和框架

PawBench v1.0构建150道任务、4050个测试单元的Agent评测集,将底座模型与运行框架纳入同一体系,帮你找到模型+Harness最佳组合。

PawBench 是什么150道任务的五维标签体系关键发现发现一:Harness 能左右模型表现发现二:Skill 主动发现是短板发现三:Web 搜索依赖默认可用性Harness 设计四原则谁适合用获取方式
AI产品

Agent 任务失败了,到底是模型"没想明白",还是工具和环境"没配好"?这个问题一直很难回答。PawBench v1.0 把底座模型和运行框架(Harness)放在同一个评测体系里,帮你找到最佳组合。

  • 项目地址:https://github.com/agentscope-ai/PawBench
  • 榜单地址:https://agentscope-ai.github.io/PawBench

PawBench 是什么

PawBench 是一个面向个人助理与通用智能体场景的开源评测基准。它不只做模型排行榜,而是把"模型 + Harness + 任务"三者放在一起做交叉评测。

评测矩阵:9 个模型 x 3 个 Harness x 150 道任务 = 4,050 个测试单元

三家 Harness 分别是 Hermes、OpenClaw 和 QwenPaw。所有任务在 Docker 沙箱中运行,执行轨迹和环境快照都会被保留。

PawBench评测架构

150道任务的五维标签体系

每道题按 5 个维度打标:

  1. 应用场景:办公协同、软件工程、自动化脚本、多模态内容生成
  2. 原子能力:工具调用、Skill 使用、规划、逻辑推理、自我校验
  3. 复杂度:L1 / L2 / L3
  4. 输入模态:纯文本 vs 多模态
  5. 运行环境:离线沙箱 vs 需联网

关键发现

发现一:Harness 能左右模型表现

同一个模型只换 Harness,分数差距可达 11.5 分。最典型的例子是 qwen3.6-35b-a3b:在 QwenPaw 环境下拿到 70.4 分,在 Hermes 下只有 68.2 分。

原因包括:

  • 缺乏产物级硬校验:Harness 只听模型说"我完成了",不检查文件是否真的落地
  • 路径感知不足:没告诉模型当前工作目录在哪,模型写入了错误位置
  • 工具数量过载:Hermes 约 65 个工具,OpenClaw 约 30 个,QwenPaw 约 15 个。工具过多会挤占上下文、增加决策负担

发现二:Skill 主动发现是短板

三家 Harness 在 17 道 Skill 任务上表现都不佳。核心问题是 Harness 不主动扫描工作区中的 Skill 文件,只依赖全局预装的技能列表。

发现三:Web 搜索依赖默认可用性

Hermes 的搜索工具需要配置 API Key 才能启用,零配置下被"锁死"。而 OpenClaw 支持免密的 DuckDuckGo 搜索,零配置直连。

Harness 设计四原则

基于评测结果,PawBench 给出了 4 条直接可用的设计原则:

原则要点
Inform Fully明确告知模型运行环境:cwd、workspace、输出目录、可用资源
Equip on Demand关键工具默认可用,工具数量匹配模型的注意力预算
Monitor Actively检查产物是否真的落地,不只听模型说"完成了"
Recover Gracefully发现异常时注入当前状态、说明缺少什么,给一次纠偏机会

谁适合用

  • Agent 用户:帮你选更合适的模型和 Harness 组合
  • Harness 开发者:4050 个 cell 的对照矩阵 + 切片分析能力,帮你做横向自检、失败画像和回归验证
  • 研究者:基于五维标签体系分析不同维度的 Agent 能力

获取方式

项目已开源,GitHub 搜索 agentscope-ai/PawBench 即可。支持接入新 Harness、提交新模型评测结果、贡献新任务。

所有文章

作者

avatar for toolin小编
toolin小编

分类

  • AI产品
PawBench 是什么150道任务的五维标签体系关键发现发现一:Harness 能左右模型表现发现二:Skill 主动发现是短板发现三:Web 搜索依赖默认可用性Harness 设计四原则谁适合用获取方式

相关文章

写好Claude Skill的7条实战经验
AI教程

写好Claude Skill的7条实战经验

来自Anthropic官方的Skill编写经验总结:精简上下文、积累踩坑清单、脚本化稳定环节,让你的AI协作效率翻倍。

avatar for toolin小编
toolin小编
1天前
RhymeFlow:开源视频生成提速1.8倍
AI产品

RhymeFlow:开源视频生成提速1.8倍

清华大学开源视频生成加速框架RhymeFlow,无需重训练即可让Wan 2.1、CogVideoX等DiT模型推理提速1.5x-1.8x,质量几乎无损,62.5%用户无法区分差异。

avatar for toolin小编
toolin小编
1天前
Kimi K2.7 Code发布:Token消耗直降30%
AI产品

Kimi K2.7 Code发布:Token消耗直降30%

月之暗面发布并开源Kimi K2.7 Code编程模型,1.1万亿参数、256K上下文,长程任务过度思考问题大幅改善,高速版6倍速度2倍价格。

avatar for toolin小编
toolin小编
1天前