toolin.ai logo
toolin.ai
首页
AI工具
AI技能包
AI资讯
精选推文
AI提示词
提交AI工具提交
toolin.ai logo
toolin.ai

百万AI玩家的创作利器库,发现最佳AI工具组合,提升您的创作效率

AI工具1,146个
技能包11个
产品功能
  • AI工具
  • AI技能包
  • AI资讯
  • 精选推文
关于我们
  • 关于Toolin
  • 联系我们
  • 合作洽谈
  • 更新日志
关注我们
© 2025 toolin.ai. All rights reserved.
服务条款隐私政策

Harness工程:AI编程成功率从20%飙到100%

2026/05/25
·toolin小编

Anthropic和OpenAI同时验证的结论:AI编程智能体失败的原因不在模型,在Harness。五步搭建你的第一个Harness配置

Harness工程:AI编程成功率从20%飙到100%
Harness工程:AI编程成功率从20%飙到100%
2026/05/25

Harness工程:AI编程成功率从20%飙到100%

Anthropic和OpenAI同时验证的结论:AI编程智能体失败的原因不在模型,在Harness。五步搭建你的第一个Harness配置

Harness 是什么两组对照实验Anthropic 实验OpenAI 实验五步搭建你的 Harness第一步:建 AGENTS.md(或 CLAUDE.md)第二步:配置权限(Permissions)第三步:写 setup.sh 锁环境第四步:建 PROGRESS.md第五步:固化完成定义(最关键)三种致命失败模式1. 过早宣布胜利2. 上下文焦虑(Context Anxiety)3. 跨会话失忆(Cross-Session Amnesia)核心结论
AI教程

你的 AI 编程智能体是不是经常"自信地交付一坨跑不通的代码"?问题很可能不在模型本身,而在于你有没有给它装上 Harness。

Anthropic 和 OpenAI 在 2026 年几乎同时用实验验证了同一个结论:AI 编程智能体频频失败,问题不在模型,在模型之外的 Harness 基础设施。同一个 Opus 4.5 模型,裸跑花 9 美元全部失败,配上 Harness 花 200 美元成功率达 100%。

Harness 是什么

Harness 不是工具,也不是提示词技巧,它是围绕 AI 编程智能体搭建的一整套工程基础设施,由五个子系统组成:

Harness五大子系统

子系统解决什么问题对应文件
指令 (Instructions)智能体不知道项目约定,瞎写代码AGENTS.md / CLAUDE.md
工具 (Tools)越权操作:rm -rf、git push --forcesettings.json / config.toml
环境 (Environment)这台能跑的到 CI 就废了setup.sh / Dockerfile
状态 (State)跨会话失忆,写出冲突代码PROGRESS.md
反馈 (Feedback)过早宣布胜利,代码根本跑不通type check / test / lint

两组对照实验

Anthropic 实验

同一个 Opus 4.5 模型,同一道编程题:

  • 裸跑:花 9 美元,成功率 0% -- 代码风格混乱、破坏性命令、没有跑测试
  • 配 Harness:花 200 美元,成功率 100% -- 多花的 191 美元全花在验证循环上

Anthropic对照实验数据

OpenAI 实验

Codex 团队在百万行真实仓库上验证。实验只改了一件事 -- 仓库根目录加了一个 AGENTS.md 文件,不到 100 行 markdown。

OpenAI Codex实验

五步搭建你的 Harness

下面五步用文本编辑器就能完成,加起来不超过 200 行配置。

第一步:建 AGENTS.md(或 CLAUDE.md)

在仓库根目录创建一个 markdown 文件。OpenAI 阵营叫 AGENTS.md,Anthropic 阵营叫 CLAUDE.md。Codex、Claude Code、Cursor 启动时会自动读取并注入系统提示词。

至少写三块内容:

# Project
这是一个用 Next.js + Prisma 构建的电商后台

# Forbidden
- 禁止执行 git push --force
- 禁止删除 migrations 目录
- 禁止使用 npm(用 pnpm)

# Done means
- pnpm typecheck 通过
- pnpm test 全绿
- pnpm lint 零 error

不到 15 行,就把项目约定从反复重申变成启动时自动注入。

AGENTS.md 配置示例

第二步:配置权限(Permissions)

限定智能体能调用哪些命令。

Claude Code 用 .claude/settings.json,Codex 用 ~/.codex/config.toml。

{
  "permissions": {
    "allow": ["pnpm install", "pnpm test", "pnpm typecheck"],
    "deny": ["rm -rf", "git push --force", "DROP TABLE"]
  }
}

允许的直接跑,禁止的直接拒,灰色地带的弹确认。

权限配置示例

第三步:写 setup.sh 锁环境

锁定依赖版本、运行时配置。已有 Dockerfile / devcontainer.json 可跳过,否则写一个 setup.sh。

关键一行:

pnpm install --frozen-lockfile

--frozen-lockfile 确保智能体无法擅自升级任何依赖。

环境锁定配置

第四步:建 PROGRESS.md

touch PROGRESS.md

四个板块:已完成、进行中、待办、已知问题。提交进 git,当成项目自身的一部分维护。

在 AGENTS.md 里固化约定:

## Rules
- 新会话第一件事:读 PROGRESS.md
- 任务完成或断点变化:立即回写 PROGRESS.md
- 冲突时以代码为准 -- 仓库是唯一事实来源

PROGRESS.md 示例

第五步:固化完成定义(最关键)

在 AGENTS.md 末尾写明验证命令:

## Done Definition
Task is NOT done until ALL of these pass:
- pnpm typecheck (exit code 0)
- pnpm test (exit code 0)
- pnpm lint (exit code 0)
- pnpm build (exit code 0)

退出码不为 0,任务就不算完成。如果项目还没有这些命令,今天就配上。

核心教训:前四步全做对,第五步缺位,依然全废。没有反馈循环,Harness 等于没装。

三种致命失败模式

Anthropic 和 OpenAI 的实验指向了智能体最常见的三种失败:

1. 过早宣布胜利

智能体写完 500 行功能就输出"已完成"。合并代码 -- CI 红屏,type check 报 12 个错,单测一个没跑过。

解法:反馈子系统。判定权交给退出码 -- 退出码 != 0,任务 != 完成。

2. 上下文焦虑(Context Anxiety)

长任务做到 70%,上下文 Token 快撑满。智能体开始赶进度 -- 跳过测试、删边界处理、写 stub 收尾。

解法:状态子系统 + 主动重启。上下文 Token 用量超 70% 时,主动停下、写完断点、开新会话。

3. 跨会话失忆(Cross-Session Amnesia)

第一个会话写了用户模块,第二个会话又写了一遍 getUserById,接口签名冲突。

解法:PROGRESS.md 维护已完成功能清单 + AGENTS.md 写明首读约定。

三种失败模式

核心结论

模型能力决定上限,Harness 决定你能用到上限的几成。

没有 Harness,Opus 4.5 跑出的代码连编译都过不去;有了 Harness,小一档的模型也能稳定交付。与其等下一个更强的模型,先把 Harness 装好。

参考资源:

  • Learn Harness Engineering
  • Everything Claude Code (ECC)
所有文章

作者

avatar for toolin小编
toolin小编

分类

  • AI教程
Harness 是什么两组对照实验Anthropic 实验OpenAI 实验五步搭建你的 Harness第一步:建 AGENTS.md(或 CLAUDE.md)第二步:配置权限(Permissions)第三步:写 setup.sh 锁环境第四步:建 PROGRESS.md第五步:固化完成定义(最关键)三种致命失败模式1. 过早宣布胜利2. 上下文焦虑(Context Anxiety)3. 跨会话失忆(Cross-Session Amnesia)核心结论

相关文章

CODA:让LLM和新手写出光速GPU内核
AI产品

CODA:让LLM和新手写出光速GPU内核

来自MIT和普林斯顿的开源项目,把Transformer训练中的散碎计算重写为GEMM-Epilogue模式,反向传播加速1.6-1.8倍

avatar for toolin小编
toolin小编
8小时前
Codex 进阶玩法:让 AI Agent 替你全天候工作
AI教程

Codex 进阶玩法:让 AI Agent 替你全天候工作

OpenAI Codex 团队成员公开完整工作流,涵盖长期线程管理、Heartbeats 定时任务、Goal 模式和本地知识库搭建,帮你把 Codex 从工具变成全职 AI 员工。

avatar for toolin小编
toolin小编
2天前
GLM-5.1 高速版实测:400 TPS 不掉智商
AI产品

GLM-5.1 高速版实测:400 TPS 不掉智商

智谱 GLM-5.1 高速版 API 内测实测 TPS 达 350-400 tokens/s,采用 TileRT 推理引擎,在 Claude Code 中配合使用体验极佳,目前仅面向企业客户开放。

avatar for toolin小编
toolin小编
2天前