返回精选推文
宝玉

宝玉

@dotey·2026/06/08·1周前

微信 AI 想复制 Agent Skills 的成功,甚至开发规范都是参考 Skill 和 MCP 来定义的 https://t.co/JsmDu9DhLH 但是小程序却有几个致命的缺陷: 1. 无法自动进化 Skill 有不足,Agent 在用的时候就能发现,Agent 直接就能改,越改越好用。 小程序是要打包要审查的,Agent 用的时候发现问题,它也许能汇报给开发者,但是无法去改,就算不好用也只能凑合甚至“摆烂” 2. 无法高度定制化 好用的 Skill 都是高度个性化的,每个人的偏好不一样,Skill 受欢迎一个原因也是每个人都可以去自己定制,从头写或者找个开源的,让 Agent 帮改改,再加上自动进化和记忆能力,它会越来越好用。 3. Agent 图形界面操作能力远不如脚本能力 小程序是图形界面操作,除非微信 AI 把小程序的接口搞的跟 CLI 一样,让 Agent 可以像命令行工具一样操作小程序,否则模型操作小程序的成本和成功率都很难做好。

103853

相关推文

OpenAI 宣布推出 GPT-5.5,这是一款专为理解复杂目标和自主完成任务而设计的新模型,现已在 ChatGPT 和 Codex 中上线。

隆重推出 GPT-5.5 这是一种为实际工作和驱动智能体(Agents)而生的新一代智能,旨在理解复杂目标、使用工具、检查自身工作,并能执行更多任务直至完成。它标志着一种全新的计算机工作处理方式。 现已在 ChatGPT 和 Codex 中上线。

Tweet media 1
AI模型GPT-5.5OpenAIAI 智能体
33.8K4.6K1.6K4.5M

Anthropic 发起 Project Glasswing 软件安全计划,由其最新的尖端模型 Claude Mythos Preview 提供支持,旨在精准识别关键软件漏洞。

隆重推出 Project Glasswing:一项旨在帮助保护全球最关键软件安全的紧急行动。 它由我们最新的前沿模型 Claude Mythos Preview 提供支持,该模型发现软件漏洞的能力超越了绝大多数人类专家,仅次于最顶尖的专业人士。 https://t.co/NQ7IfEtYk7

AI模型AnthropicClaude MythosProject Glasswing
19.2K2.7K8907.4M

Lenny Rachitsky 总结了他与 Simon Willison 的深度对话,探讨了 AI 辅助软件工程的演变,涵盖了智能体工程模式、职业影响及安全风险。

我从 @simonw 那里获得的最大心得: 1. 2025 年 11 月是 AI 编程的一个拐点。GPT 5.1 和 Claude Opus 4.5 跨越了一个阈值,编程智能体从“大多能用”变成了“几乎总是能按你预想的执行”。假期里尝试过这些工具的软件工程师们意识到,这项技术已经真正变得可靠了。 2. 中坚工程师最容易受到冲击——不是初级,也不是资深工程师。AI 通过让资深工程师利用几十年的模式识别经验来放大他们的能力。它也极大地帮助了新工程师入职。Cloudflare 和 Shopify 各自雇佣了一千名实习生,因为 AI 将上手时间从一个月缩短到了一周。但那些尚未积累深厚专业知识,又已经吃不到初学者红利的中坚工程师,正处于最不稳定的境地。 3. AI 疲劳是真实存在且被低估的。Simon 同时运行四个编程智能体,到上午 11 点时大脑就完全耗尽了。他节省了更多时间,但同时指挥多个自主工作者带来的强度让他精疲力竭。一些工程师为了保持智能体运行而牺牲睡眠。这可能只是因为新鲜感,但其底层的动态——即管理 AI 即使减少了劳动,也增加了认知负荷——是一种真实的张力。优秀的公司会管理预期,而不是无限期地期待 5 倍的产出。 4. 代码现在很廉价。这个简单的想法有着深远的影响。过去最耗时的事情——写代码——现在耗时最少。瓶颈已经转移到其他方面:决定构建什么、证明想法可行、获取用户反馈。由于原型设计几乎零成本,Simon 在开始时通常会为每个功能构建三个版本。 5. “黑暗工厂”是目前 AI 辅助开发中最激进的实验。一家名为 StrongDM 的公司制定了政策:没人写代码,没人读代码。相反,他们 24/7 全天候运行一群 AI 模拟的终端用户——成千上万的假员工发出类似“给我 Jira 访问权限”的请求——每天花费 1 万美元的 Token 成本。他们甚至让编程智能体根据 API 文档构建了 Slack、Jira 和 Okta 的模拟版本,以便在没有速率限制的情况下进行测试。 6. “红/绿 TDD”是杠杆率最高的智能体工程模式。让编程智能体先写测试,观察它们失败,然后编写实现,再观察它们通过,能产生实质上更好的结果。“使用红/绿 TDD”这五个字的提示词就能编码整个工作流,因为智能体能识别这些行话。 7. “囤积你已掌握的方法”是 Simon 最喜欢的另一种智能体工程模式。Simon 维护着一个包含 193 个小型 HTML/JavaScript 工具的 GitHub 仓库,以及一个独立的编程智能体实验研究仓库。每一个都捕捉了他测试过的一种技术、概念验证或库。当新问题出现时,他可以向 Claude Code 指出过去的项目并说:“结合这两种方法。” 8. “致命三要素”使得 AI 智能体安全问题从根本上无法解决。每当 AI 智能体具备访问私有数据、接触不可信内容(如传入的电子邮件)以及向外部发送数据(如回复邮件)的能力时,你就拥有了“致命三要素”。提示词注入——即不可信文本中的恶意指令覆盖了智能体的预期行为——无法被可靠地预防。Simon 三年来每六个月就预测一次 AI 安全领域的“挑战者号灾难”。虽然还没发生,但他非常确定它迟早会发生。 9. 从精简模板开始每个项目,而不是长篇指令文件。编程智能体在匹配现有模式方面表现极佳。一个包含你偏好的缩进和风格的单一测试文件,比长篇大论的文字指令更有效。Simon 每个项目都从包含一个测试(字面意思是测试 1 + 1 = 2)的模板开始,并按照他喜欢的风格布局。智能体能领悟这一点,并在整个代码库中遵循该惯例。这比维护复杂的提示词文件更便宜、更可靠。 10. “骑自行车的鹈鹕”基准测试意外地成为了一个真正的 AI 基准。Simon 创建它纯粹是为了嘲讽数字基准测试——让每个大语言模型生成一张鹈鹕骑自行车的 SVG 图,然后比较画作。出乎意料的是,画作的好坏与模型在其他所有方面的能力之间存在很强的相关性。没人能解释原因。这已经成为了一个梗:Gemini 3.1 的发布视频中就出现了骑自行车的鹈鹕。AI 实验室对此心知肚明,并正在私下里进行竞争。 不要错过我们的完整对话:https://t.co/ghZZeyvWBZ

AI开发AI 工程编程智能体Simon Willison
6528646169.8K

山姆·奥特曼宣布发布 GPT-5.4,其特点是增强了知识工作能力、具备原生计算机使用功能,并拥有 100 万 token 的上下文窗口。

GPT-5.4 正式发布,现已在 API 和 Codex 中上线,并将于今日内陆续推送到 ChatGPT。 它在知识工作和网页搜索方面表现更佳,并具备原生的计算机使用能力。 你可以在响应中途对其进行引导,且它支持高达 100 万 token 的上下文。

Tweet media 1
AI模型GPT-5.4OpenAIComputer Use
12.9K1.2K2.0K1.3M