PawBench v1.0构建150道任务、4050个测试单元的Agent评测集,将底座模型与运行框架纳入同一体系,帮你找到模型+Harness最佳组合。


PawBench v1.0构建150道任务、4050个测试单元的Agent评测集,将底座模型与运行框架纳入同一体系,帮你找到模型+Harness最佳组合。
Agent 任务失败了,到底是模型"没想明白",还是工具和环境"没配好"?这个问题一直很难回答。PawBench v1.0 把底座模型和运行框架(Harness)放在同一个评测体系里,帮你找到最佳组合。
PawBench 是一个面向个人助理与通用智能体场景的开源评测基准。它不只做模型排行榜,而是把"模型 + Harness + 任务"三者放在一起做交叉评测。
评测矩阵:9 个模型 x 3 个 Harness x 150 道任务 = 4,050 个测试单元
三家 Harness 分别是 Hermes、OpenClaw 和 QwenPaw。所有任务在 Docker 沙箱中运行,执行轨迹和环境快照都会被保留。

每道题按 5 个维度打标:
同一个模型只换 Harness,分数差距可达 11.5 分。最典型的例子是 qwen3.6-35b-a3b:在 QwenPaw 环境下拿到 70.4 分,在 Hermes 下只有 68.2 分。
原因包括:
三家 Harness 在 17 道 Skill 任务上表现都不佳。核心问题是 Harness 不主动扫描工作区中的 Skill 文件,只依赖全局预装的技能列表。
Hermes 的搜索工具需要配置 API Key 才能启用,零配置下被"锁死"。而 OpenClaw 支持免密的 DuckDuckGo 搜索,零配置直连。
基于评测结果,PawBench 给出了 4 条直接可用的设计原则:
| 原则 | 要点 |
|---|---|
| Inform Fully | 明确告知模型运行环境:cwd、workspace、输出目录、可用资源 |
| Equip on Demand | 关键工具默认可用,工具数量匹配模型的注意力预算 |
| Monitor Actively | 检查产物是否真的落地,不只听模型说"完成了" |
| Recover Gracefully | 发现异常时注入当前状态、说明缺少什么,给一次纠偏机会 |
项目已开源,GitHub 搜索 agentscope-ai/PawBench 即可。支持接入新 Harness、提交新模型评测结果、贡献新任务。

来自Anthropic官方的Skill编写经验总结:精简上下文、积累踩坑清单、脚本化稳定环节,让你的AI协作效率翻倍。

清华大学开源视频生成加速框架RhymeFlow,无需重训练即可让Wan 2.1、CogVideoX等DiT模型推理提速1.5x-1.8x,质量几乎无损,62.5%用户无法区分差异。

月之暗面发布并开源Kimi K2.7 Code编程模型,1.1万亿参数、256K上下文,长程任务过度思考问题大幅改善,高速版6倍速度2倍价格。