
深入解析 Coding Agent 的六大核心模块:代码仓库上下文、提示词缓存、工具调用、上下文瘦身、会话记忆和任务委派,附开源 Mini Coding Agent 实践参考。
你有没有想过,为什么 Claude Code 和 Codex CLI 用起来比直接在聊天框里和模型对话强那么多?答案不在于模型本身,而在于包裹在模型外面的那层"运行框架"(Harness)。这篇文章带你拆解编程智能体的六大核心组件,帮你理解为什么好的 Harness 能让同一个模型发挥出数倍的实力。
在深入细节之前,需要理清三个容易混淆的概念:
打个比方:LLM 是普通发动机,推理模型是爆改后的高性能发动机,Agent Harness 则是帮你驾驭这台发动机的整车系统。

当你说"把测试代码修一下"时,模型不能两眼一抹黑。它得知道自己在不在一个 Git 仓库里、当前在哪个分支、项目的 AGENTS.md 或 README 里有没有开发规范。
编程智能体在动手之前,会先收集情报并打包成一份"工作区摘要"。这样在面对你的每一次提示时,它都不是在零基础状态下盲目启动。
关键细节:Git 的分支、状态和提交记录能提供丰富的背景信息,告诉模型当前正在做哪些修改、重点应该放在哪里。

收集了代码库情报后,怎么高效地喂给模型是第二个问题。写代码是一个反复迭代的过程,在这个过程中,系统指令、工具说明和工作区摘要大部分时间是不变的。真正频繁变动的是你最新的指令和近期对话记录。
一个聪明的 Harness 会把"稳定的提示词前缀"缓存起来重复利用,而不是每轮对话都从头重建。现在主流的大模型 API 都支持 Prompt Cache(提示词缓存),可以大幅省钱和提升响应速度。
实践要点:稳定的部分(系统指令 + 工具说明 + 工作区摘要)放前面,频繁变动的部分(短期记忆 + 近期对话 + 最新需求)放后面。
这一步让编程智能体从"只会聊天"变成"能干活"。Harness 提供一份预先定义好的工具箱,每个工具都有名字、明确的输入要求和严格的边界。
完整的工具调用流程:

安全机制:每当模型要动手干点什么时,Harness 会进行"安检":这是已知工具吗?参数合法吗?高危操作需要用户批准吗?文件路径超出代码仓库范围了吗?

编程智能体比普通聊天更容易"吃撑",因为它会频繁读取文件,工具输出和日志信息往往又臭又长。一个及格的 Harness 至少会用两招:
核心秘诀:越近的事情保留越多细节,越久远的事情压缩得越狠。 另外,还要对早期读取的文件做去重处理。
很多时候我们夸赞"这个模型真聪明",其实很大程度上归功于"这个系统喂给它的上下文质量真高"。

编程智能体把状态分为两层:
注意这两个和上一节的"精简版对话"的区别:
两者分工不同但互补。完整记录以 JSON 格式存在硬盘上,即使关闭智能体下次打开也能恢复。
最顺理成章的高阶能力是"摇人"。把某些子任务分给子智能体并行处理,比逼着主智能体一个脑子同时处理所有线索要高效得多。
但难点在于控制:

Claude Code 很早就支持了子智能体。Codex 最近也补上了这个功能,它通常不会强迫子智能体进入"只读模式",而是继承主智能体的沙箱环境和审批权限,在任务范围、上下文大小和执行深度上画圈。
如果你想看这六大组件的纯净代码实现,Sebastian Raschka 用纯 Python 从头编写了一个 Mini Coding Agent,没有任何外部依赖。
项目地址:https://github.com/rasbt/mini-coding-agent
代码中用注释标出了六大组件的对应实现:
##############################
#### 六大智能体组件 ####
##############################
# 1) 实时代码仓库上下文 -> WorkspaceContext
# 2) 提示词形态与缓存复用 -> build_prefix, memory_text, prompt
# 3) 结构化工具、验证与权限 -> build_tools, run_tool, validate_tool, approve
# 4) 上下文瘦身与输出管理 -> clip, history_text
# 5) 完整对话记录、记忆与恢复 -> SessionStore, record, note_tool, ask, reset
# 6) 任务委派与受限子智能体 -> tool_delegate
在讨论"大语言模型的编程能力"时,人们往往把"模型本身"和"智能体产品"混为一谈。现在的基础模型能力其实已经非常接近,真正拉开差距的是外围 Harness 的设计质量。
更好的 LLM 为推理模型打下基础,而优秀的 Harness 把推理模型的潜力压榨到极致。理解这六大组件,能帮你在使用 Claude Code、Codex 等工具时更好地利用它们的能力,也能在需要自建工具时少走弯路。

GitHub 2万Star爆火的caveman插件,通过精简AI输出风格节省Token消耗,支持Claude Code和Codex,三档压缩强度按需切换。

零配置、全模态、本地运行的开源知识图谱工具,token 消耗降低 71.5 倍,无需向量数据库,pip 一键安装。

飞书、钉钉、企业微信相继推出命令行工具,Karpathy强推CLI复兴趋势,本文教你如何用CLI让AI Agent直接操作企业软件。