提交AI工具提交

PawBench: 开源Agent评测基准，4050个测试单元帮你选模型和框架

2026/06/05

·toolin小编

PawBench v1.0构建150道任务、4050个测试单元的Agent评测集，将底座模型与运行框架纳入同一体系，帮你找到模型+Harness最佳组合。

PawBench: 开源Agent评测基准，4050个测试单元帮你选模型和框架

PawBench: 开源Agent评测基准，4050个测试单元帮你选模型和框架

2026/06/05

PawBench: 开源Agent评测基准，4050个测试单元帮你选模型和框架

PawBench v1.0构建150道任务、4050个测试单元的Agent评测集，将底座模型与运行框架纳入同一体系，帮你找到模型+Harness最佳组合。

PawBench 是什么 150道任务的五维标签体系关键发现发现一：Harness 能左右模型表现发现二：Skill 主动发现是短板发现三：Web 搜索依赖默认可用性 Harness 设计四原则谁适合用获取方式

Agent 任务失败了，到底是模型"没想明白"，还是工具和环境"没配好"？这个问题一直很难回答。PawBench v1.0 把底座模型和运行框架（Harness）放在同一个评测体系里，帮你找到最佳组合。

PawBench 是什么

PawBench 是一个面向个人助理与通用智能体场景的开源评测基准。它不只做模型排行榜，而是把"模型 + Harness + 任务"三者放在一起做交叉评测。

评测矩阵：9 个模型 x 3 个 Harness x 150 道任务 = 4,050 个测试单元

三家 Harness 分别是 Hermes、OpenClaw 和 QwenPaw。所有任务在 Docker 沙箱中运行，执行轨迹和环境快照都会被保留。

PawBench评测架构

150道任务的五维标签体系

每道题按 5 个维度打标：

应用场景：办公协同、软件工程、自动化脚本、多模态内容生成
原子能力：工具调用、Skill 使用、规划、逻辑推理、自我校验
复杂度：L1 / L2 / L3
输入模态：纯文本 vs 多模态
运行环境：离线沙箱 vs 需联网

关键发现

发现一：Harness 能左右模型表现

同一个模型只换 Harness，分数差距可达 11.5 分。最典型的例子是 qwen3.6-35b-a3b：在 QwenPaw 环境下拿到 70.4 分，在 Hermes 下只有 68.2 分。

原因包括：

缺乏产物级硬校验：Harness 只听模型说"我完成了"，不检查文件是否真的落地
路径感知不足：没告诉模型当前工作目录在哪，模型写入了错误位置
工具数量过载：Hermes 约 65 个工具，OpenClaw 约 30 个，QwenPaw 约 15 个。工具过多会挤占上下文、增加决策负担

发现二：Skill 主动发现是短板

三家 Harness 在 17 道 Skill 任务上表现都不佳。核心问题是 Harness 不主动扫描工作区中的 Skill 文件，只依赖全局预装的技能列表。

发现三：Web 搜索依赖默认可用性

Hermes 的搜索工具需要配置 API Key 才能启用，零配置下被"锁死"。而 OpenClaw 支持免密的 DuckDuckGo 搜索，零配置直连。

Harness 设计四原则

基于评测结果，PawBench 给出了 4 条直接可用的设计原则：

原则	要点
Inform Fully	明确告知模型运行环境：cwd、workspace、输出目录、可用资源
Equip on Demand	关键工具默认可用，工具数量匹配模型的注意力预算
Monitor Actively	检查产物是否真的落地，不只听模型说"完成了"
Recover Gracefully	发现异常时注入当前状态、说明缺少什么，给一次纠偏机会

谁适合用

Agent 用户：帮你选更合适的模型和 Harness 组合
Harness 开发者：4050 个 cell 的对照矩阵 + 切片分析能力，帮你做横向自检、失败画像和回归验证
研究者：基于五维标签体系分析不同维度的 Agent 能力

获取方式

项目已开源，GitHub 搜索 agentscope-ai/PawBench 即可。支持接入新 Harness、提交新模型评测结果、贡献新任务。

作者

toolin小编

分类

AI产品

PawBench 是什么 150道任务的五维标签体系关键发现发现一：Harness 能左右模型表现发现二：Skill 主动发现是短板发现三：Web 搜索依赖默认可用性 Harness 设计四原则谁适合用获取方式

相关文章

Codex 5.5 + GPT-5.5：OpenAI编程工具大升级

Codex 5.5 + GPT-5.5：OpenAI编程工具大升级

GPT-5.5驱动Codex实现全自动编程，50个并行Codex同时运行，全平台产品矩阵覆盖Mac、iOS和浏览器

DeepSeek-TUI：终端里的AI编程Agent

DeepSeek-TUI：终端里的AI编程Agent

GitHub 2.3k星的Rust开源终端编程工具，专为DeepSeek V4优化，支持思维链输出、子Agent调度和MCP服务器

GPT-image-2 生图转PSD实操指南

GPT-image-2 生图转PSD实操指南

用ChatGPT和Codex将AI生成图片拆分为可编辑PSD图层，开源Skill一键搞定设计工作流