返回精选推文
OpenAI

OpenAI

@OpenAI·2026/06/22·21小时前

We’re also launching the OpenAI Daybreak Cyber Partner Program with leading security software and services providers. Participating partners can use GPT‑5.5 with Trusted Access for Cyber in the security products and services they provide to customers. This allows their customers to benefit from the model’s defensive capabilities and make their software more resilient, but keeps direct model access in the hands of participating partners.

20710544.4K

相关推文

OpenAI 宣布推出 GPT-5.5,这是一款专为理解复杂目标和自主完成任务而设计的新模型,现已在 ChatGPT 和 Codex 中上线。

隆重推出 GPT-5.5 这是一种为实际工作和驱动智能体(Agents)而生的新一代智能,旨在理解复杂目标、使用工具、检查自身工作,并能执行更多任务直至完成。它标志着一种全新的计算机工作处理方式。 现已在 ChatGPT 和 Codex 中上线。

Tweet media 1
AI模型GPT-5.5OpenAIAI 智能体
33.8K4.6K1.6K4.5M

Anthropic 发起 Project Glasswing 软件安全计划,由其最新的尖端模型 Claude Mythos Preview 提供支持,旨在精准识别关键软件漏洞。

隆重推出 Project Glasswing:一项旨在帮助保护全球最关键软件安全的紧急行动。 它由我们最新的前沿模型 Claude Mythos Preview 提供支持,该模型发现软件漏洞的能力超越了绝大多数人类专家,仅次于最顶尖的专业人士。 https://t.co/NQ7IfEtYk7

AI模型AnthropicClaude MythosProject Glasswing
19.2K2.7K8907.4M

Lenny Rachitsky 总结了他与 Simon Willison 的深度对话,探讨了 AI 辅助软件工程的演变,涵盖了智能体工程模式、职业影响及安全风险。

我从 @simonw 那里获得的最大心得: 1. 2025 年 11 月是 AI 编程的一个拐点。GPT 5.1 和 Claude Opus 4.5 跨越了一个阈值,编程智能体从“大多能用”变成了“几乎总是能按你预想的执行”。假期里尝试过这些工具的软件工程师们意识到,这项技术已经真正变得可靠了。 2. 中坚工程师最容易受到冲击——不是初级,也不是资深工程师。AI 通过让资深工程师利用几十年的模式识别经验来放大他们的能力。它也极大地帮助了新工程师入职。Cloudflare 和 Shopify 各自雇佣了一千名实习生,因为 AI 将上手时间从一个月缩短到了一周。但那些尚未积累深厚专业知识,又已经吃不到初学者红利的中坚工程师,正处于最不稳定的境地。 3. AI 疲劳是真实存在且被低估的。Simon 同时运行四个编程智能体,到上午 11 点时大脑就完全耗尽了。他节省了更多时间,但同时指挥多个自主工作者带来的强度让他精疲力竭。一些工程师为了保持智能体运行而牺牲睡眠。这可能只是因为新鲜感,但其底层的动态——即管理 AI 即使减少了劳动,也增加了认知负荷——是一种真实的张力。优秀的公司会管理预期,而不是无限期地期待 5 倍的产出。 4. 代码现在很廉价。这个简单的想法有着深远的影响。过去最耗时的事情——写代码——现在耗时最少。瓶颈已经转移到其他方面:决定构建什么、证明想法可行、获取用户反馈。由于原型设计几乎零成本,Simon 在开始时通常会为每个功能构建三个版本。 5. “黑暗工厂”是目前 AI 辅助开发中最激进的实验。一家名为 StrongDM 的公司制定了政策:没人写代码,没人读代码。相反,他们 24/7 全天候运行一群 AI 模拟的终端用户——成千上万的假员工发出类似“给我 Jira 访问权限”的请求——每天花费 1 万美元的 Token 成本。他们甚至让编程智能体根据 API 文档构建了 Slack、Jira 和 Okta 的模拟版本,以便在没有速率限制的情况下进行测试。 6. “红/绿 TDD”是杠杆率最高的智能体工程模式。让编程智能体先写测试,观察它们失败,然后编写实现,再观察它们通过,能产生实质上更好的结果。“使用红/绿 TDD”这五个字的提示词就能编码整个工作流,因为智能体能识别这些行话。 7. “囤积你已掌握的方法”是 Simon 最喜欢的另一种智能体工程模式。Simon 维护着一个包含 193 个小型 HTML/JavaScript 工具的 GitHub 仓库,以及一个独立的编程智能体实验研究仓库。每一个都捕捉了他测试过的一种技术、概念验证或库。当新问题出现时,他可以向 Claude Code 指出过去的项目并说:“结合这两种方法。” 8. “致命三要素”使得 AI 智能体安全问题从根本上无法解决。每当 AI 智能体具备访问私有数据、接触不可信内容(如传入的电子邮件)以及向外部发送数据(如回复邮件)的能力时,你就拥有了“致命三要素”。提示词注入——即不可信文本中的恶意指令覆盖了智能体的预期行为——无法被可靠地预防。Simon 三年来每六个月就预测一次 AI 安全领域的“挑战者号灾难”。虽然还没发生,但他非常确定它迟早会发生。 9. 从精简模板开始每个项目,而不是长篇指令文件。编程智能体在匹配现有模式方面表现极佳。一个包含你偏好的缩进和风格的单一测试文件,比长篇大论的文字指令更有效。Simon 每个项目都从包含一个测试(字面意思是测试 1 + 1 = 2)的模板开始,并按照他喜欢的风格布局。智能体能领悟这一点,并在整个代码库中遵循该惯例。这比维护复杂的提示词文件更便宜、更可靠。 10. “骑自行车的鹈鹕”基准测试意外地成为了一个真正的 AI 基准。Simon 创建它纯粹是为了嘲讽数字基准测试——让每个大语言模型生成一张鹈鹕骑自行车的 SVG 图,然后比较画作。出乎意料的是,画作的好坏与模型在其他所有方面的能力之间存在很强的相关性。没人能解释原因。这已经成为了一个梗:Gemini 3.1 的发布视频中就出现了骑自行车的鹈鹕。AI 实验室对此心知肚明,并正在私下里进行竞争。 不要错过我们的完整对话:https://t.co/ghZZeyvWBZ

AI开发AI 工程编程智能体Simon Willison
6528646169.8K

山姆·奥特曼宣布发布 GPT-5.4,其特点是增强了知识工作能力、具备原生计算机使用功能,并拥有 100 万 token 的上下文窗口。

GPT-5.4 正式发布,现已在 API 和 Codex 中上线,并将于今日内陆续推送到 ChatGPT。 它在知识工作和网页搜索方面表现更佳,并具备原生的计算机使用能力。 你可以在响应中途对其进行引导,且它支持高达 100 万 token 的上下文。

Tweet media 1
AI模型GPT-5.4OpenAIComputer Use
12.9K1.2K2.0K1.3M