meng shao 的推文 | 精选推文

meng shao

@shao__meng·2026/05/10·2周前

Claude Code、Cursor、Codex、Aider、Cline 部分底层模型可能完全相同，但 Agent 表现却不一样，为什么？ @addyosmani 认为：是因为模型之上的那层“外壳” —— Harness，它包括「提示词、工具、上下文策略、钩子、沙箱、子智能体、反馈回路、恢复路径」等。 Agent = Model + Harness 重新系统看看什么是 Harness？凡是"不是模型本身"的部分都属于外壳： · 指令层：System prompt、CLAUDE.md、AGENTS.md、skill 文件、子 agent 指令 · 能力层：工具、skills、MCP servers 及其描述 · 基础设施：文件系统、沙箱、无头浏览器 · 编排层：子 agent 派发、任务交接、模型路由 · 执行控制：hooks、中间件（lint、上下文压缩等确定性逻辑） · 可观测性：日志、trace、成本与延迟监控裸模型不是 agent。只有当外壳为它提供了状态、工具执行、反馈回路和强制约束，它才成为 agent。思维范式的切换：不是"模型问题"，是"配置问题" 行业默认反应是：agent 出错 → 等下一代模型。 Harness Engineering 拒绝这个默认。每一类失败都是可定位的工程信号： · 忽略代码规范：写进 AGENTS.md · 执行破坏性命令：加 hook 阻止 · 长任务中途失焦：拆分为 planner + executor · 写出无法编译的代码：把 type-check 作为反压信号注入回路同一个模型，放在精调过的外壳里，性能可以远高于跑在通用框架上。当前模型理论能力与你实际看到的能力之间的差距，主要是 harness gap。最关键的工作方法：棘轮（The Ratchet）每一次失误都变成一条永久规则。 · 一次"提交了被注释掉的测试"的事故 → AGENTS.md 增加"绝不注释测试"，pre-commit hook 检测 .skip(，reviewer 子 agent 拦截。 · 约束只在观察到真实失败时加入，只在更强模型让它冗余时才移除。 · 系统提示词里每一行都应能追溯到一次具体的历史失败。推论：没有通用最优 harness。一个 harness 是一个代码库的"失败史"塑造出来的，是工程纪律而非框架。设计方法：从行为反推组件 1. 文件系统 + Git —— 持久化状态模型只能操作进入上下文窗口的内容。文件系统是工作区、暂存区、多 agent 协调面。Git 提供免费版本控制、分支实验、回滚。 2. Bash + 代码执行 —— 通用工具 ReAct 循环（reason → act → observe → repeat）。与其为每个动作预建工具，不如让 agent 用 bash 现场组装。Agent 在 shell 上表现普遍很强。 3. 沙箱 + 默认工具链 Bash 必须安全运行。好沙箱预装运行时、测试 CLI、无头浏览器，让 agent 能"自我验证"。 4. 记忆 + 搜索 —— 持续学习模型不知道训练之后的世界。AGENTS.md 在每次会话注入领域知识；web search 和 MCP 工具补足实时信息。 5. 对抗 Context Rot 上下文越满，推理越退化。三种主要手法： · Compaction：智能压缩与卸载旧上下文 · Tool-call offloading：长输出（如 2000 行日志）落盘，只在上下文里保留头尾 · Progressive disclosure：按需披露指令和工具，而不是启动时全量加载 6. 长程执行应对"过早停止"和"分解失败"： · Loops：拦截模型的退出意图，在新上下文窗口里强制继续推进完成目标 · Planning：强制写出步骤计划文件，每步后用 self-verification hook 检查 · Splits：生成与评估拆给不同 agent，规避模型自评的正向偏差 7. Hooks —— 强制层连接"请求行为"和"强制行为"。生命周期挂载点：工具调用前、文件编辑后、提交前。成功应当沉默，失败应当冗长。typecheck 通过则无声；失败则把错误直接注入回路供自纠。 8. 规则手册和工具选择 · AGENTS.md 仍是仓库根部最高杠杆的配置点。但要把它当飞行员检查清单，不是风格指南——简短，每条都有失败史背书。 · 十个高度聚焦的工具，永远胜过五十个互相重叠的工具。 · 工具描述会进入 prompt，所以未审计的 MCP server 等同于 prompt 注入风险面。生产中的样子把对 Claude Code 架构的推测性拆解作为成熟外壳的参照 · 上下文注入 = 知识层 · 循环状态 = memory store + worktree 隔离器 · 破坏性动作 hook = 权限闸 · 子 agent 上下文防火墙 = 多 agent 层 · 工具 dispatch registry = MCP 与 bash 的统一插槽外壳不会消失，只会迁移模型变强不会让外壳消失，而是让它位移： · 老一代模型催生的"上下文焦虑缓解层"已经被新模型大幅淘汰 · 但能力上限抬高的同时，新的失败模式也随之出现 · 外壳里每一块脚手架都编码了"模型当前不能独立做到什么"——模型变强，过时的拆掉，新的搭起来去够下一条地平线训练循环的反馈模型 post-training 时通常会带特定 harness 入环 → 模型对这些 harness 偏向的动作（文件系统操作、bash、子 agent 派发）格外擅长 → 形成一定程度的过拟合。最佳 harness 是为你具体任务和工作流定制的那个。 Harness-as-a-Service 行业从"在 LLM API（提供 completion）上构建"转向"在 Harness API（提供 runtime）上构建"。SDK 直接交付循环、工具、上下文管理、hooks、沙箱。新默认范式：选一个 harness 框架 → 配置其核心支柱 → 只专注于领域特定的 prompt 与工具设计。这让排错变成"调一个良好分层的配置面"，而不是"重造整个 agent 架构"。未来方向 · 顶尖编码 agent 之间的相似度，已经高于它们底层模型之间的相似度——外壳模式在收敛 · 开放问题正在越过"单 agent"：多 agent 并行编排、agent 分析自身 trace 修复 harness 级故障、按需即时组装工具的环境 · 下一阶段：harness 不再是静态配置文件，而越来越像编译器。

53976.2K

一句话总结

深入解析 Agent = Model + Harness 架构，指出同一模型在不同外壳下的性能差异源于提示词、工具、上下文策略等工程配置，并提出「棘轮」工作法将每次失误转化为永久规则。

摘要

这是一篇关于 AI Agent 架构的深度技术 Thread。作者引用 Addy Osmani 的观点，指出 Claude Code、Cursor 等编码 Agent 底层模型可能相同但表现迥异，核心原因在于模型之上的「外壳」（Harness），包括提示词、工具、上下文策略、钩子、沙箱、子智能体、反馈回路和恢复路径。文章系统拆解了 Harness 的八大组件（文件系统与 Git、Bash 与代码执行、沙箱、记忆与搜索、对抗 Context Rot、长程执行、Hooks、规则手册），提出了「棘轮」工作法——将每一次失误转化为永久规则，并讨论了 Harness-as-a-Service 的未来趋势。内容兼具理论深度和工程实践指导，对 AI Agent 开发者和架构师有极高参考价值。

评分

优质

综合质量评分

分类与标签

AI开发AgentHarness EngineeringAI Agent 架构Claude CodeCursor

查看原推

相关推文

Lenny Rachitsky

@lennysan·2026/04/03

Lenny Rachitsky 总结了他与 Simon Willison 的深度对话，探讨了 AI 辅助软件工程的演变，涵盖了智能体工程模式、职业影响及安全风险。

我从 @simonw 那里获得的最大心得： 1. 2025 年 11 月是 AI 编程的一个拐点。GPT 5.1 和 Claude Opus 4.5 跨越了一个阈值，编程智能体从“大多能用”变成了“几乎总是能按你预想的执行”。假期里尝试过这些工具的软件工程师们意识到，这项技术已经真正变得可靠了。 2. 中坚工程师最容易受到冲击——不是初级，也不是资深工程师。AI 通过让资深工程师利用几十年的模式识别经验来放大他们的能力。它也极大地帮助了新工程师入职。Cloudflare 和 Shopify 各自雇佣了一千名实习生，因为 AI 将上手时间从一个月缩短到了一周。但那些尚未积累深厚专业知识，又已经吃不到初学者红利的中坚工程师，正处于最不稳定的境地。 3. AI 疲劳是真实存在且被低估的。Simon 同时运行四个编程智能体，到上午 11 点时大脑就完全耗尽了。他节省了更多时间，但同时指挥多个自主工作者带来的强度让他精疲力竭。一些工程师为了保持智能体运行而牺牲睡眠。这可能只是因为新鲜感，但其底层的动态——即管理 AI 即使减少了劳动，也增加了认知负荷——是一种真实的张力。优秀的公司会管理预期，而不是无限期地期待 5 倍的产出。 4. 代码现在很廉价。这个简单的想法有着深远的影响。过去最耗时的事情——写代码——现在耗时最少。瓶颈已经转移到其他方面：决定构建什么、证明想法可行、获取用户反馈。由于原型设计几乎零成本，Simon 在开始时通常会为每个功能构建三个版本。 5. “黑暗工厂”是目前 AI 辅助开发中最激进的实验。一家名为 StrongDM 的公司制定了政策：没人写代码，没人读代码。相反，他们 24/7 全天候运行一群 AI 模拟的终端用户——成千上万的假员工发出类似“给我 Jira 访问权限”的请求——每天花费 1 万美元的 Token 成本。他们甚至让编程智能体根据 API 文档构建了 Slack、Jira 和 Okta 的模拟版本，以便在没有速率限制的情况下进行测试。 6. “红/绿 TDD”是杠杆率最高的智能体工程模式。让编程智能体先写测试，观察它们失败，然后编写实现，再观察它们通过，能产生实质上更好的结果。“使用红/绿 TDD”这五个字的提示词就能编码整个工作流，因为智能体能识别这些行话。 7. “囤积你已掌握的方法”是 Simon 最喜欢的另一种智能体工程模式。Simon 维护着一个包含 193 个小型 HTML/JavaScript 工具的 GitHub 仓库，以及一个独立的编程智能体实验研究仓库。每一个都捕捉了他测试过的一种技术、概念验证或库。当新问题出现时，他可以向 Claude Code 指出过去的项目并说：“结合这两种方法。” 8. “致命三要素”使得 AI 智能体安全问题从根本上无法解决。每当 AI 智能体具备访问私有数据、接触不可信内容（如传入的电子邮件）以及向外部发送数据（如回复邮件）的能力时，你就拥有了“致命三要素”。提示词注入——即不可信文本中的恶意指令覆盖了智能体的预期行为——无法被可靠地预防。Simon 三年来每六个月就预测一次 AI 安全领域的“挑战者号灾难”。虽然还没发生，但他非常确定它迟早会发生。 9. 从精简模板开始每个项目，而不是长篇指令文件。编程智能体在匹配现有模式方面表现极佳。一个包含你偏好的缩进和风格的单一测试文件，比长篇大论的文字指令更有效。Simon 每个项目都从包含一个测试（字面意思是测试 1 + 1 = 2）的模板开始，并按照他喜欢的风格布局。智能体能领悟这一点，并在整个代码库中遵循该惯例。这比维护复杂的提示词文件更便宜、更可靠。 10. “骑自行车的鹈鹕”基准测试意外地成为了一个真正的 AI 基准。Simon 创建它纯粹是为了嘲讽数字基准测试——让每个大语言模型生成一张鹈鹕骑自行车的 SVG 图，然后比较画作。出乎意料的是，画作的好坏与模型在其他所有方面的能力之间存在很强的相关性。没人能解释原因。这已经成为了一个梗：Gemini 3.1 的发布视频中就出现了骑自行车的鹈鹕。AI 实验室对此心知肚明，并正在私下里进行竞争。不要错过我们的完整对话：https://t.co/ghZZeyvWBZ

AI开发AI 工程编程智能体Simon Willison

6528646169.8K

Greg Brockman

@gdb·2026/02/06

Greg Brockman 概述了 OpenAI 的战略转型及实践框架，旨在将工程团队转向“智能体优先”的开发工作流。

软件开发正发生在我们眼前的复兴。如果你最近没用过这些工具，你可能低估了你所错过的东西。自 12 月以来，Codex 等工具的能力发生了阶跃式提升。昨天 OpenAI 的一些优秀工程师告诉我，他们的工作自 12 月以来发生了根本性的变化。在那之前，他们只能用 Codex 编写单元测试；而现在，它基本上编写了所有代码，并承担了大量的运维和调试工作。并非所有人都迈出了这一步，但这通常是因为模型能力之外的因素。现在每家公司都面临着同样的机遇，而要驾驭好这一机遇——就像对待云计算或互联网一样——需要深思熟虑。这篇文章分享了 OpenAI 目前如何引导我们的团队向“智能体化软件开发”转型。我们仍在学习和迭代，但以下是我们目前的思考：作为第一步，我们的目标是在 3 月 31 日前实现： (1) 对于任何技术任务，人类的首选工具是与智能体交互，而不是使用编辑器或终端。 (2) 人类使用智能体的默认方式被明确评估为安全，且具有足够的生产力，使得大多数工作流不需要额外的权限。为了实现这一目标，我们几周前向团队提出了以下建议： 1. 花时间试用工具。工具本身就是最好的推销——许多人在几个月前放弃了 Codex 网页版，但在 Codex 5.2 中获得了惊人的体验。但许多人太忙了，还没机会尝试 Codex，或者陷入了纠结“它有没有办法做 X”，而不是直接尝试。 - 为你的团队指定一名“智能体负责人” (agents captain) —— 负责思考如何将智能体引入团队工作流的主要负责人。 - 在指定的内部频道分享经验或问题。 - 抽出一天时间举办公司范围内的 Codex 黑客松。 2. 创建技能和 AGENTS[.md]。 - 为你参与的任何项目创建并维护 AGENTS[.md]；每当智能体出错或在任务中挣扎时，更新 AGENTS[.md]。 - 为你让 Codex 做的任何事情编写“技能” (skills)，并将其提交到共享仓库的技能目录中。 3. 盘点并开放内部工具。 - 维护一份团队依赖的工具列表，并确保有人负责使其可被智能体访问（例如通过 CLI 或 MCP 服务器）。 4. 构建“智能体优先”的代码库。随着模型更迭如此之快，这在某种程度上仍是处女地，需要一些探索。 - 编写运行速度快的测试，并在组件之间创建高质量的接口。 5. 拒绝垃圾代码 (Say no to slop)。在大规模管理 AI 生成的代码是一个新兴问题，需要新的流程和规范来保持高代码质量。 - 确保有人对任何合并的代码负责。作为代码审查者，至少要保持与审查人类代码相同的标准，并确保作者理解他们提交的内容。 6. 完善基础架构。每个人都有很大的空间来构建基础架构，这可以由内部用户反馈来引导。核心工具正变得越来越好用，但目前工具周围还有很多配套设施，例如可观测性、不仅跟踪提交的代码还要跟踪导致这些代码的智能体轨迹 (agent trajectories)，以及对智能体可用工具的集中管理。总的来说，采用 Codex 这样的工具不仅是技术变革，也是深刻的文化变革，还有许多下游影响需要解决。我们鼓励每位管理者带领团队推进这一进程，并思考其他行动项 —— 例如，针对上述第 5 点，还有什么能防止大量“功能正确但难以维护的代码”潜入代码库。

AI开发智能体工作流软件工程OpenAI

12.3K1.6K4152.1M

Andrej Karpathy

@karpathy·2026/01/31

Andrej Karpathy 展示了如何将 GPT-2 级别模型的训练成本降低 600 倍，利用 nanochat 框架仅需 73 美元和 3 小时即可完成。

nanochat 现在可以用远低于 100 美元（约 73 美元，在单台 8xH100 节点上耗时 3 小时）的成本训练出 GPT-2 级别的 LLM。 GPT-2 是我最喜欢的 LLM，因为它是 LLM 技术栈首次以公认的现代形式呈现。因此，利用过去 7 年的进步，以更低的成本训练出一个具备 GPT-2 能力的模型，已经成了我的一种奇特且持久的执念。特别是我怀疑，在今天应该可以用远低于 100 美元的成本训练出一个。最初在 2019 年，OpenAI 在 32 个 TPU v3 芯片上训练 GPT-2 耗时 168 小时（7 天），当时的单价是 8 美元/小时/TPUv3，总成本约为 4.3 万美元。它达到了 0.256525 的 CORE 评分，这是 DCLM 论文中引入的一项综合指标，涵盖了 ARC/MMLU 等 22 项评估。随着最近合并到 nanochat 的几项改进（许多源自 modded-nanogpt 仓库），我现在可以在单台 8xH100 节点上用 3.04 小时（约 73 美元）达到更高的 CORE 评分。这在 7 年内实现了 600 倍的成本缩减，也就是说，训练 GPT-2 的成本每年大约下降 2.5 倍。我认为这可能还是低估了，因为我仍然在相对定期地发现更多改进，而且我还有一堆新想法等着去尝试。关于优化细节的长文和复现指南请见：https://t.co/vhnK0d3L7B 受 modded-nanogpt 启发，我还创建了一个“GPT-2 训练时长”排行榜，这个首个“Jan29”模型以 3.04 小时位列第一。继续迭代会很有趣，欢迎大家帮忙！我希望 nanochat 能成长为一个非常优雅、简洁且经过调优的实验性 LLM 框架，用于原型设计、寻找乐趣，当然还有学习。在那些开箱即用且能立即产生收益的改进中，最显著的是：1) Flash Attention 3 算子（速度更快，并允许通过 window_size 参数实现交替注意力模式）；Muon 优化器（我曾尝试花一天时间删掉它只用 AdamW，但没成功）；由可学习标量控制的残差路径和跳跃连接；以及值嵌入（value embeddings）。还有许多其他的小改进累积在一起。配图：与推文半相关的“视觉享受”——推导当前 nanochat 模型系列的缩放法则，既漂亮又治愈！

AI开发GPT-2LLM 训练nanochat

7.4K6303331.3M

Andrew Ng

@AndrewYNg·2025/12/29

吴恩达分享了在快速发展的 AI 领域中取得成功的系统建议，强调了正式学习、实际应用以及酌情阅读研究论文之间的平衡。

又一年的 AI 快速发展，为所有人——包括那些刚进入该领域的人——提供了比以往更多的软件构建机会。事实上，许多公司就是找不到足够熟练的 AI 人才。每个寒假，我都会花一些时间学习和实践，我希望你也能如此。这有助于我磨练旧技能、学习新技能，也能帮助你在科技领域发展职业生涯。为了熟练地构建 AI 系统，我建议你： - 参加 AI 课程 - 练习构建 AI 系统 - （可选）阅读研究论文让我来分享一下，为什么这些都至关重要。我听说有些开发者建议其他人直接投入实践，而无需担心学习。这绝对是个糟糕的建议！除非你已经身处一个经验丰富的 AI 开发者社区中，否则在不理解 AI 基础的情况下投入实践，意味着你将冒着重复造轮子的风险，或者——更可能——只是拙劣地重复造轮子！例如，在与求职者面试时，我曾遇到一些开发者，他们重新发明了标准的 RAG 文档分块策略，复制了代理式 AI 现有的评估技术，或者编写出混乱的 LLM 上下文管理代码。如果他们修了几门相关的课程，就会更好地理解已有的构建模块。即使他们想从头开始重建这些模块，甚至可能发明出比现有解决方案更优越的东西，也能避免数周不必要的工作。因此，结构化学习至关重要。此外，我发现上课真的很有趣。与其看 Netflix，我更喜欢随时观看一位知识渊博的 AI 讲师的课程！然而，仅仅上课是远远不够的。许多经验只能通过动手实践才能获得。学习飞机工作原理的理论对于成为一名飞行员固然重要，但没有人仅仅通过上课就能学会驾驶飞机。在某个阶段，亲身坐进驾驶舱进行实践至关重要！好消息是，通过学习使用高度代理式的编码器，构建过程比以往任何时候都更加容易。而学习 AI 构建模块可能会激发你构建新事物的想法。如果我对要做什么项目没有灵感，我通常会去上课或阅读研究论文，这样过一段时间后，我总会涌现出许多新想法。此外，我发现实践真的很有趣，我希望你也能体会到这一点。最后，并非所有人都有必要这样做，但我发现当今就业市场上许多最优秀的候选人至少偶尔会阅读研究论文。虽然我发现研究论文比课程更难理解，但它们包含了许多尚未被转化为更容易理解形式的知识。我将阅读研究论文的优先级放在上课和实践构建之下，但如果你有机会增强阅读论文的能力，我强烈建议你这样做。我发现上课和实践很有趣，而阅读论文可能更像是一项苦差事，但从中获得的灵光一闪的洞见却令人欣喜。祝大家度过一个愉快的寒假和新年。除了学习和实践，我希望你们也能多花时间陪伴所爱之人——这一点同样重要！ [原文链接: https://t.co/MaWDs0AbzG ]

AI开发AI EducationCareer DevelopmentMachine Learning

1.9K319144141.8K