
Lenny Rachitsky
我从 @simonw 那里获得的最大心得: 1. 2025 年 11 月是 AI 编程的一个拐点。GPT 5.1 和 Claude Opus 4.5 跨越了一个阈值,编程智能体从“大多能用”变成了“几乎总是能按你预想的执行”。假期里尝试过这些工具的软件工程师们意识到,这项技术已经真正变得可靠了。 2. 中坚工程师最容易受到冲击——不是初级,也不是资深工程师。AI 通过让资深工程师利用几十年的模式识别经验来放大他们的能力。它也极大地帮助了新工程师入职。Cloudflare 和 Shopify 各自雇佣了一千名实习生,因为 AI 将上手时间从一个月缩短到了一周。但那些尚未积累深厚专业知识,又已经吃不到初学者红利的中坚工程师,正处于最不稳定的境地。 3. AI 疲劳是真实存在且被低估的。Simon 同时运行四个编程智能体,到上午 11 点时大脑就完全耗尽了。他节省了更多时间,但同时指挥多个自主工作者带来的强度让他精疲力竭。一些工程师为了保持智能体运行而牺牲睡眠。这可能只是因为新鲜感,但其底层的动态——即管理 AI 即使减少了劳动,也增加了认知负荷——是一种真实的张力。优秀的公司会管理预期,而不是无限期地期待 5 倍的产出。 4. 代码现在很廉价。这个简单的想法有着深远的影响。过去最耗时的事情——写代码——现在耗时最少。瓶颈已经转移到其他方面:决定构建什么、证明想法可行、获取用户反馈。由于原型设计几乎零成本,Simon 在开始时通常会为每个功能构建三个版本。 5. “黑暗工厂”是目前 AI 辅助开发中最激进的实验。一家名为 StrongDM 的公司制定了政策:没人写代码,没人读代码。相反,他们 24/7 全天候运行一群 AI 模拟的终端用户——成千上万的假员工发出类似“给我 Jira 访问权限”的请求——每天花费 1 万美元的 Token 成本。他们甚至让编程智能体根据 API 文档构建了 Slack、Jira 和 Okta 的模拟版本,以便在没有速率限制的情况下进行测试。 6. “红/绿 TDD”是杠杆率最高的智能体工程模式。让编程智能体先写测试,观察它们失败,然后编写实现,再观察它们通过,能产生实质上更好的结果。“使用红/绿 TDD”这五个字的提示词就能编码整个工作流,因为智能体能识别这些行话。 7. “囤积你已掌握的方法”是 Simon 最喜欢的另一种智能体工程模式。Simon 维护着一个包含 193 个小型 HTML/JavaScript 工具的 GitHub 仓库,以及一个独立的编程智能体实验研究仓库。每一个都捕捉了他测试过的一种技术、概念验证或库。当新问题出现时,他可以向 Claude Code 指出过去的项目并说:“结合这两种方法。” 8. “致命三要素”使得 AI 智能体安全问题从根本上无法解决。每当 AI 智能体具备访问私有数据、接触不可信内容(如传入的电子邮件)以及向外部发送数据(如回复邮件)的能力时,你就拥有了“致命三要素”。提示词注入——即不可信文本中的恶意指令覆盖了智能体的预期行为——无法被可靠地预防。Simon 三年来每六个月就预测一次 AI 安全领域的“挑战者号灾难”。虽然还没发生,但他非常确定它迟早会发生。 9. 从精简模板开始每个项目,而不是长篇指令文件。编程智能体在匹配现有模式方面表现极佳。一个包含你偏好的缩进和风格的单一测试文件,比长篇大论的文字指令更有效。Simon 每个项目都从包含一个测试(字面意思是测试 1 + 1 = 2)的模板开始,并按照他喜欢的风格布局。智能体能领悟这一点,并在整个代码库中遵循该惯例。这比维护复杂的提示词文件更便宜、更可靠。 10. “骑自行车的鹈鹕”基准测试意外地成为了一个真正的 AI 基准。Simon 创建它纯粹是为了嘲讽数字基准测试——让每个大语言模型生成一张鹈鹕骑自行车的 SVG 图,然后比较画作。出乎意料的是,画作的好坏与模型在其他所有方面的能力之间存在很强的相关性。没人能解释原因。这已经成为了一个梗:Gemini 3.1 的发布视频中就出现了骑自行车的鹈鹕。AI 实验室对此心知肚明,并正在私下里进行竞争。 不要错过我们的完整对话:https://t.co/ghZZeyvWBZ





