OpenAI 的推文 | 精选推文

@OpenAI·2026/04/23

OpenAI 宣布推出 GPT-5.5，这是一款专为理解复杂目标和自主完成任务而设计的新模型，现已在 ChatGPT 和 Codex 中上线。

隆重推出 GPT-5.5 这是一种为实际工作和驱动智能体（Agents）而生的新一代智能，旨在理解复杂目标、使用工具、检查自身工作，并能执行更多任务直至完成。它标志着一种全新的计算机工作处理方式。现已在 ChatGPT 和 Codex 中上线。

AI模型GPT-5.5OpenAIAI 智能体

33.8K4.6K1.6K4.5M

Anthropic

@AnthropicAI·2026/04/07

Anthropic 发起 Project Glasswing 软件安全计划，由其最新的尖端模型 Claude Mythos Preview 提供支持，旨在精准识别关键软件漏洞。

隆重推出 Project Glasswing：一项旨在帮助保护全球最关键软件安全的紧急行动。它由我们最新的前沿模型 Claude Mythos Preview 提供支持，该模型发现软件漏洞的能力超越了绝大多数人类专家，仅次于最顶尖的专业人士。 https://t.co/NQ7IfEtYk7

AI模型AnthropicClaude MythosProject Glasswing

19.2K2.7K8907.4M

Lenny Rachitsky

@lennysan·2026/04/03

Lenny Rachitsky 总结了他与 Simon Willison 的深度对话，探讨了 AI 辅助软件工程的演变，涵盖了智能体工程模式、职业影响及安全风险。

我从 @simonw 那里获得的最大心得： 1. 2025 年 11 月是 AI 编程的一个拐点。GPT 5.1 和 Claude Opus 4.5 跨越了一个阈值，编程智能体从“大多能用”变成了“几乎总是能按你预想的执行”。假期里尝试过这些工具的软件工程师们意识到，这项技术已经真正变得可靠了。 2. 中坚工程师最容易受到冲击——不是初级，也不是资深工程师。AI 通过让资深工程师利用几十年的模式识别经验来放大他们的能力。它也极大地帮助了新工程师入职。Cloudflare 和 Shopify 各自雇佣了一千名实习生，因为 AI 将上手时间从一个月缩短到了一周。但那些尚未积累深厚专业知识，又已经吃不到初学者红利的中坚工程师，正处于最不稳定的境地。 3. AI 疲劳是真实存在且被低估的。Simon 同时运行四个编程智能体，到上午 11 点时大脑就完全耗尽了。他节省了更多时间，但同时指挥多个自主工作者带来的强度让他精疲力竭。一些工程师为了保持智能体运行而牺牲睡眠。这可能只是因为新鲜感，但其底层的动态——即管理 AI 即使减少了劳动，也增加了认知负荷——是一种真实的张力。优秀的公司会管理预期，而不是无限期地期待 5 倍的产出。 4. 代码现在很廉价。这个简单的想法有着深远的影响。过去最耗时的事情——写代码——现在耗时最少。瓶颈已经转移到其他方面：决定构建什么、证明想法可行、获取用户反馈。由于原型设计几乎零成本，Simon 在开始时通常会为每个功能构建三个版本。 5. “黑暗工厂”是目前 AI 辅助开发中最激进的实验。一家名为 StrongDM 的公司制定了政策：没人写代码，没人读代码。相反，他们 24/7 全天候运行一群 AI 模拟的终端用户——成千上万的假员工发出类似“给我 Jira 访问权限”的请求——每天花费 1 万美元的 Token 成本。他们甚至让编程智能体根据 API 文档构建了 Slack、Jira 和 Okta 的模拟版本，以便在没有速率限制的情况下进行测试。 6. “红/绿 TDD”是杠杆率最高的智能体工程模式。让编程智能体先写测试，观察它们失败，然后编写实现，再观察它们通过，能产生实质上更好的结果。“使用红/绿 TDD”这五个字的提示词就能编码整个工作流，因为智能体能识别这些行话。 7. “囤积你已掌握的方法”是 Simon 最喜欢的另一种智能体工程模式。Simon 维护着一个包含 193 个小型 HTML/JavaScript 工具的 GitHub 仓库，以及一个独立的编程智能体实验研究仓库。每一个都捕捉了他测试过的一种技术、概念验证或库。当新问题出现时，他可以向 Claude Code 指出过去的项目并说：“结合这两种方法。” 8. “致命三要素”使得 AI 智能体安全问题从根本上无法解决。每当 AI 智能体具备访问私有数据、接触不可信内容（如传入的电子邮件）以及向外部发送数据（如回复邮件）的能力时，你就拥有了“致命三要素”。提示词注入——即不可信文本中的恶意指令覆盖了智能体的预期行为——无法被可靠地预防。Simon 三年来每六个月就预测一次 AI 安全领域的“挑战者号灾难”。虽然还没发生，但他非常确定它迟早会发生。 9. 从精简模板开始每个项目，而不是长篇指令文件。编程智能体在匹配现有模式方面表现极佳。一个包含你偏好的缩进和风格的单一测试文件，比长篇大论的文字指令更有效。Simon 每个项目都从包含一个测试（字面意思是测试 1 + 1 = 2）的模板开始，并按照他喜欢的风格布局。智能体能领悟这一点，并在整个代码库中遵循该惯例。这比维护复杂的提示词文件更便宜、更可靠。 10. “骑自行车的鹈鹕”基准测试意外地成为了一个真正的 AI 基准。Simon 创建它纯粹是为了嘲讽数字基准测试——让每个大语言模型生成一张鹈鹕骑自行车的 SVG 图，然后比较画作。出乎意料的是，画作的好坏与模型在其他所有方面的能力之间存在很强的相关性。没人能解释原因。这已经成为了一个梗：Gemini 3.1 的发布视频中就出现了骑自行车的鹈鹕。AI 实验室对此心知肚明，并正在私下里进行竞争。不要错过我们的完整对话：https://t.co/ghZZeyvWBZ

AI开发AI 工程编程智能体Simon Willison

6528646169.8K

Sam Altman

@sama·2026/03/05

山姆·奥特曼宣布发布 GPT-5.4，其特点是增强了知识工作能力、具备原生计算机使用功能，并拥有 100 万 token 的上下文窗口。

GPT-5.4 正式发布，现已在 API 和 Codex 中上线，并将于今日内陆续推送到 ChatGPT。它在知识工作和网页搜索方面表现更佳，并具备原生的计算机使用能力。你可以在响应中途对其进行引导，且它支持高达 100 万 token 的上下文。

AI模型GPT-5.4OpenAIComputer Use

12.9K1.2K2.0K1.3M

OpenAI

相关推文