编程智能体的六大核心组件详解

你有没有想过，为什么 Claude Code 和 Codex CLI 用起来比直接在聊天框里和模型对话强那么多？答案不在于模型本身，而在于包裹在模型外面的那层"运行框架"（Harness）。这篇文章带你拆解编程智能体的六大核心组件，帮你理解为什么好的 Harness 能让同一个模型发挥出数倍的实力。

先搞清楚几个概念

在深入细节之前，需要理清三个容易混淆的概念：

大语言模型（LLM）：核心引擎，不断预测"下一个词"的模型
推理模型（Reasoning Model）：经过特殊训练的 LLM，会在生成答案时投入更多算力做中间推理（即思维链 Chain of Thought）和自我验证
智能体（Agent）：包裹在模型上面的"控制循环"，负责决定接下来检查什么、调用哪个工具、什么时候停下来

打个比方：LLM 是普通发动机，推理模型是爆改后的高性能发动机，Agent Harness 则是帮你驾驭这台发动机的整车系统。

模型关系图

组件一：实时代码仓库上下文（Live Repo Context）

当你说"把测试代码修一下"时，模型不能两眼一抹黑。它得知道自己在不在一个 Git 仓库里、当前在哪个分支、项目的 AGENTS.md 或 README 里有没有开发规范。

编程智能体在动手之前，会先收集情报并打包成一份"工作区摘要"。这样在面对你的每一次提示时，它都不是在零基础状态下盲目启动。

关键细节：Git 的分支、状态和提交记录能提供丰富的背景信息，告诉模型当前正在做哪些修改、重点应该放在哪里。

工作区摘要

组件二：提示词形态与缓存复用（Prompt Shape & Cache Reuse）

收集了代码库情报后，怎么高效地喂给模型是第二个问题。写代码是一个反复迭代的过程，在这个过程中，系统指令、工具说明和工作区摘要大部分时间是不变的。真正频繁变动的是你最新的指令和近期对话记录。

一个聪明的 Harness 会把"稳定的提示词前缀"缓存起来重复利用，而不是每轮对话都从头重建。现在主流的大模型 API 都支持 Prompt Cache（提示词缓存），可以大幅省钱和提升响应速度。

实践要点：稳定的部分（系统指令 + 工具说明 + 工作区摘要）放前面，频繁变动的部分（短期记忆 + 近期对话 + 最新需求）放后面。

组件三：工具的接入与调用（Tool Access & Use）

这一步让编程智能体从"只会聊天"变成"能干活"。Harness 提供一份预先定义好的工具箱，每个工具都有名字、明确的输入要求和严格的边界。

完整的工具调用流程：

模型输出一个结构化的动作
Harness 进行验证（参数是否合法、是否需要人工批准）
执行动作
把受控的执行结果传回循环系统

工具调用流程

安全机制：每当模型要动手干点什么时，Harness 会进行"安检"：这是已知工具吗？参数合法吗？高危操作需要用户批准吗？文件路径超出代码仓库范围了吗？

工具审批界面

组件四：上下文瘦身（Minimizing Context Bloat）

编程智能体比普通聊天更容易"吃撑"，因为它会频繁读取文件，工具输出和日志信息往往又臭又长。一个及格的 Harness 至少会用两招：

裁剪（Clipping）：对长篇大论的文档片段和工具输出毫不留情地截断
对话记录精简（Transcript Reduction）：把完整历史记录提炼成轻量级摘要

核心秘诀：越近的事情保留越多细节，越久远的事情压缩得越狠。 另外，还要对早期读取的文件做去重处理。

很多时候我们夸赞"这个模型真聪明"，其实很大程度上归功于"这个系统喂给它的上下文质量真高"。

上下文瘦身

组件五：结构化会话记忆（Structured Session Memory）

编程智能体把状态分为两层：

工作记忆（Working Memory）：小巧而纯粹，是智能体刻意维护的核心状态（首要任务是什么、哪些文件最核心）
完整记录（Full Transcript）：涵盖所有请求、工具输出和模型回答的完整历史

注意这两个和上一节的"精简版对话"的区别：

精简版对话服务于重组提示词，给模型一个近期历史的压缩包
工作记忆服务于保持任务连贯性，在多轮对话中维护核心关键点

两者分工不同但互补。完整记录以 JSON 格式存在硬盘上，即使关闭智能体下次打开也能恢复。

组件六：任务委派与受限子智能体（Delegation with Subagents）

最顺理成章的高阶能力是"摇人"。把某些子任务分给子智能体并行处理，比逼着主智能体一个脑子同时处理所有线索要高效得多。

但难点在于控制：

子智能体既要继承足够的上下文以便干活
又必须受到严格约束（比如只能只读访问文件、限制再往下摇人的深度）

子智能体委派

Claude Code 很早就支持了子智能体。Codex 最近也补上了这个功能，它通常不会强迫子智能体进入"只读模式"，而是继承主智能体的沙箱环境和审批权限，在任务范围、上下文大小和执行深度上画圈。

实践参考：Mini Coding Agent

如果你想看这六大组件的纯净代码实现，Sebastian Raschka 用纯 Python 从头编写了一个 Mini Coding Agent，没有任何外部依赖。

项目地址：https://github.com/rasbt/mini-coding-agent

代码中用注释标出了六大组件的对应实现：

##############################
#### 六大智能体组件 ####
##############################
# 1) 实时代码仓库上下文 -> WorkspaceContext
# 2) 提示词形态与缓存复用 -> build_prefix, memory_text, prompt
# 3) 结构化工具、验证与权限 -> build_tools, run_tool, validate_tool, approve
# 4) 上下文瘦身与输出管理 -> clip, history_text
# 5) 完整对话记录、记忆与恢复 -> SessionStore, record, note_tool, ask, reset
# 6) 任务委派与受限子智能体 -> tool_delegate

组件总结

核心收获

在讨论"大语言模型的编程能力"时，人们往往把"模型本身"和"智能体产品"混为一谈。现在的基础模型能力其实已经非常接近，真正拉开差距的是外围 Harness 的设计质量。

更好的 LLM 为推理模型打下基础，而优秀的 Harness 把推理模型的潜力压榨到极致。理解这六大组件，能帮你在使用 Claude Code、Codex 等工具时更好地利用它们的能力，也能在需要自建工具时少走弯路。

先搞清楚几个概念

在深入细节之前，需要理清三个容易混淆的概念：

大语言模型（LLM）：核心引擎，不断预测"下一个词"的模型
推理模型（Reasoning Model）：经过特殊训练的 LLM，会在生成答案时投入更多算力做中间推理（即思维链 Chain of Thought）和自我验证
智能体（Agent）：包裹在模型上面的"控制循环"，负责决定接下来检查什么、调用哪个工具、什么时候停下来

打个比方：LLM 是普通发动机，推理模型是爆改后的高性能发动机，Agent Harness 则是帮你驾驭这台发动机的整车系统。

模型关系图

组件一：实时代码仓库上下文（Live Repo Context）

编程智能体在动手之前，会先收集情报并打包成一份"工作区摘要"。这样在面对你的每一次提示时，它都不是在零基础状态下盲目启动。

关键细节：Git 的分支、状态和提交记录能提供丰富的背景信息，告诉模型当前正在做哪些修改、重点应该放在哪里。

工作区摘要

组件二：提示词形态与缓存复用（Prompt Shape & Cache Reuse）

实践要点：稳定的部分（系统指令 + 工具说明 + 工作区摘要）放前面，频繁变动的部分（短期记忆 + 近期对话 + 最新需求）放后面。

组件三：工具的接入与调用（Tool Access & Use）

这一步让编程智能体从"只会聊天"变成"能干活"。Harness 提供一份预先定义好的工具箱，每个工具都有名字、明确的输入要求和严格的边界。

完整的工具调用流程：

模型输出一个结构化的动作
Harness 进行验证（参数是否合法、是否需要人工批准）
执行动作
把受控的执行结果传回循环系统

工具调用流程

工具审批界面

组件四：上下文瘦身（Minimizing Context Bloat）

编程智能体比普通聊天更容易"吃撑"，因为它会频繁读取文件，工具输出和日志信息往往又臭又长。一个及格的 Harness 至少会用两招：

裁剪（Clipping）：对长篇大论的文档片段和工具输出毫不留情地截断
对话记录精简（Transcript Reduction）：把完整历史记录提炼成轻量级摘要

核心秘诀：越近的事情保留越多细节，越久远的事情压缩得越狠。 另外，还要对早期读取的文件做去重处理。

很多时候我们夸赞"这个模型真聪明"，其实很大程度上归功于"这个系统喂给它的上下文质量真高"。

上下文瘦身

组件五：结构化会话记忆（Structured Session Memory）

编程智能体把状态分为两层：

工作记忆（Working Memory）：小巧而纯粹，是智能体刻意维护的核心状态（首要任务是什么、哪些文件最核心）
完整记录（Full Transcript）：涵盖所有请求、工具输出和模型回答的完整历史

注意这两个和上一节的"精简版对话"的区别：

精简版对话服务于重组提示词，给模型一个近期历史的压缩包
工作记忆服务于保持任务连贯性，在多轮对话中维护核心关键点

两者分工不同但互补。完整记录以 JSON 格式存在硬盘上，即使关闭智能体下次打开也能恢复。

组件六：任务委派与受限子智能体（Delegation with Subagents）

最顺理成章的高阶能力是"摇人"。把某些子任务分给子智能体并行处理，比逼着主智能体一个脑子同时处理所有线索要高效得多。

但难点在于控制：

子智能体既要继承足够的上下文以便干活
又必须受到严格约束（比如只能只读访问文件、限制再往下摇人的深度）

子智能体委派

实践参考：Mini Coding Agent

如果你想看这六大组件的纯净代码实现，Sebastian Raschka 用纯 Python 从头编写了一个 Mini Coding Agent，没有任何外部依赖。

项目地址：https://github.com/rasbt/mini-coding-agent

代码中用注释标出了六大组件的对应实现：

##############################
#### 六大智能体组件 ####
##############################
# 1) 实时代码仓库上下文 -> WorkspaceContext
# 2) 提示词形态与缓存复用 -> build_prefix, memory_text, prompt
# 3) 结构化工具、验证与权限 -> build_tools, run_tool, validate_tool, approve
# 4) 上下文瘦身与输出管理 -> clip, history_text
# 5) 完整对话记录、记忆与恢复 -> SessionStore, record, note_tool, ask, reset
# 6) 任务委派与受限子智能体 -> tool_delegate

组件总结

全部

AI教程

AI产品

AI资源

编程智能体的六大核心组件详解

编程智能体的六大核心组件详解

先搞清楚几个概念

组件一：实时代码仓库上下文（Live Repo Context）

组件二：提示词形态与缓存复用（Prompt Shape & Cache Reuse）

组件三：工具的接入与调用（Tool Access & Use）

组件四：上下文瘦身（Minimizing Context Bloat）

组件五：结构化会话记忆（Structured Session Memory）

组件六：任务委派与受限子智能体（Delegation with Subagents）

实践参考：Mini Coding Agent

核心收获

作者

分类

相关文章

腾讯会议上线 AI 同传：实时翻译你的声音，2-3 秒时延

OpenAI Codex 大更新：Appshots 截屏即编码、/goal 正式毕业、还能做 PPT

用寓言故事理解新概念：一个来自 Anthropic 的 Prompt 技巧

编程智能体的六大核心组件详解

编程智能体的六大核心组件详解

先搞清楚几个概念

组件一：实时代码仓库上下文（Live Repo Context）

组件二：提示词形态与缓存复用（Prompt Shape & Cache Reuse）

组件三：工具的接入与调用（Tool Access & Use）

组件四：上下文瘦身（Minimizing Context Bloat）

组件五：结构化会话记忆（Structured Session Memory）

组件六：任务委派与受限子智能体（Delegation with Subagents）

实践参考：Mini Coding Agent

核心收获

作者

分类

相关文章

腾讯会议上线 AI 同传：实时翻译你的声音，2-3 秒时延

OpenAI Codex 大更新：Appshots 截屏即编码、/goal 正式毕业、还能做 PPT

用寓言故事理解新概念：一个来自 Anthropic 的 Prompt 技巧