宝玉的推文 | 精选推文

宝玉

@dotey·2026/06/08·1周前

微信 AI 想复制 Agent Skills 的成功，甚至开发规范都是参考 Skill 和 MCP 来定义的 https://t.co/JsmDu9DhLH 但是小程序却有几个致命的缺陷： 1. 无法自动进化 Skill 有不足，Agent 在用的时候就能发现，Agent 直接就能改，越改越好用。小程序是要打包要审查的，Agent 用的时候发现问题，它也许能汇报给开发者，但是无法去改，就算不好用也只能凑合甚至“摆烂” 2. 无法高度定制化好用的 Skill 都是高度个性化的，每个人的偏好不一样，Skill 受欢迎一个原因也是每个人都可以去自己定制，从头写或者找个开源的，让 Agent 帮改改，再加上自动进化和记忆能力，它会越来越好用。 3. Agent 图形界面操作能力远不如脚本能力小程序是图形界面操作，除非微信 AI 把小程序的接口搞的跟 CLI 一样，让 Agent 可以像命令行工具一样操作小程序，否则模型操作小程序的成本和成功率都很难做好。

103853

一句话总结

宝玉指出微信 AI 的小程序方案相比 Agent Skills 存在无法自动进化、无法高度定制化、图形界面操作能力弱三大致命缺陷。

摘要

宝玉在回复中深入分析了微信 AI 试图复制 Agent Skills 模式时面临的核心问题。他指出，微信的小程序方案虽然参考了 Skill 和 MCP 规范，但存在三个致命缺陷：1）无法自动进化——Skill 能被 Agent 在使用中自动发现并改进，而小程序需要打包审查，Agent 发现问题也无法修改；2）无法高度定制化——好用的 Skill 高度个性化，用户可以自行定制或修改开源版本，而小程序是固定功能；3）Agent 的图形界面操作能力远不如脚本能力，除非微信将小程序接口做得像 CLI 一样，否则 Agent 操作小程序的成本和成功率都难以保证。

评分

优质

综合质量评分

分类与标签

AI Agent微信AI小程序Agent SkillsMCP

查看原推

相关推文

OpenAI

@OpenAI·2026/04/23

OpenAI 宣布推出 GPT-5.5，这是一款专为理解复杂目标和自主完成任务而设计的新模型，现已在 ChatGPT 和 Codex 中上线。

隆重推出 GPT-5.5 这是一种为实际工作和驱动智能体（Agents）而生的新一代智能，旨在理解复杂目标、使用工具、检查自身工作，并能执行更多任务直至完成。它标志着一种全新的计算机工作处理方式。现已在 ChatGPT 和 Codex 中上线。

AI模型GPT-5.5OpenAIAI 智能体

33.8K4.6K1.6K4.5M

Anthropic

@AnthropicAI·2026/04/07

Anthropic 发起 Project Glasswing 软件安全计划，由其最新的尖端模型 Claude Mythos Preview 提供支持，旨在精准识别关键软件漏洞。

隆重推出 Project Glasswing：一项旨在帮助保护全球最关键软件安全的紧急行动。它由我们最新的前沿模型 Claude Mythos Preview 提供支持，该模型发现软件漏洞的能力超越了绝大多数人类专家，仅次于最顶尖的专业人士。 https://t.co/NQ7IfEtYk7

AI模型AnthropicClaude MythosProject Glasswing

19.2K2.7K8907.4M

Lenny Rachitsky

@lennysan·2026/04/03

Lenny Rachitsky 总结了他与 Simon Willison 的深度对话，探讨了 AI 辅助软件工程的演变，涵盖了智能体工程模式、职业影响及安全风险。

我从 @simonw 那里获得的最大心得： 1. 2025 年 11 月是 AI 编程的一个拐点。GPT 5.1 和 Claude Opus 4.5 跨越了一个阈值，编程智能体从“大多能用”变成了“几乎总是能按你预想的执行”。假期里尝试过这些工具的软件工程师们意识到，这项技术已经真正变得可靠了。 2. 中坚工程师最容易受到冲击——不是初级，也不是资深工程师。AI 通过让资深工程师利用几十年的模式识别经验来放大他们的能力。它也极大地帮助了新工程师入职。Cloudflare 和 Shopify 各自雇佣了一千名实习生，因为 AI 将上手时间从一个月缩短到了一周。但那些尚未积累深厚专业知识，又已经吃不到初学者红利的中坚工程师，正处于最不稳定的境地。 3. AI 疲劳是真实存在且被低估的。Simon 同时运行四个编程智能体，到上午 11 点时大脑就完全耗尽了。他节省了更多时间，但同时指挥多个自主工作者带来的强度让他精疲力竭。一些工程师为了保持智能体运行而牺牲睡眠。这可能只是因为新鲜感，但其底层的动态——即管理 AI 即使减少了劳动，也增加了认知负荷——是一种真实的张力。优秀的公司会管理预期，而不是无限期地期待 5 倍的产出。 4. 代码现在很廉价。这个简单的想法有着深远的影响。过去最耗时的事情——写代码——现在耗时最少。瓶颈已经转移到其他方面：决定构建什么、证明想法可行、获取用户反馈。由于原型设计几乎零成本，Simon 在开始时通常会为每个功能构建三个版本。 5. “黑暗工厂”是目前 AI 辅助开发中最激进的实验。一家名为 StrongDM 的公司制定了政策：没人写代码，没人读代码。相反，他们 24/7 全天候运行一群 AI 模拟的终端用户——成千上万的假员工发出类似“给我 Jira 访问权限”的请求——每天花费 1 万美元的 Token 成本。他们甚至让编程智能体根据 API 文档构建了 Slack、Jira 和 Okta 的模拟版本，以便在没有速率限制的情况下进行测试。 6. “红/绿 TDD”是杠杆率最高的智能体工程模式。让编程智能体先写测试，观察它们失败，然后编写实现，再观察它们通过，能产生实质上更好的结果。“使用红/绿 TDD”这五个字的提示词就能编码整个工作流，因为智能体能识别这些行话。 7. “囤积你已掌握的方法”是 Simon 最喜欢的另一种智能体工程模式。Simon 维护着一个包含 193 个小型 HTML/JavaScript 工具的 GitHub 仓库，以及一个独立的编程智能体实验研究仓库。每一个都捕捉了他测试过的一种技术、概念验证或库。当新问题出现时，他可以向 Claude Code 指出过去的项目并说：“结合这两种方法。” 8. “致命三要素”使得 AI 智能体安全问题从根本上无法解决。每当 AI 智能体具备访问私有数据、接触不可信内容（如传入的电子邮件）以及向外部发送数据（如回复邮件）的能力时，你就拥有了“致命三要素”。提示词注入——即不可信文本中的恶意指令覆盖了智能体的预期行为——无法被可靠地预防。Simon 三年来每六个月就预测一次 AI 安全领域的“挑战者号灾难”。虽然还没发生，但他非常确定它迟早会发生。 9. 从精简模板开始每个项目，而不是长篇指令文件。编程智能体在匹配现有模式方面表现极佳。一个包含你偏好的缩进和风格的单一测试文件，比长篇大论的文字指令更有效。Simon 每个项目都从包含一个测试（字面意思是测试 1 + 1 = 2）的模板开始，并按照他喜欢的风格布局。智能体能领悟这一点，并在整个代码库中遵循该惯例。这比维护复杂的提示词文件更便宜、更可靠。 10. “骑自行车的鹈鹕”基准测试意外地成为了一个真正的 AI 基准。Simon 创建它纯粹是为了嘲讽数字基准测试——让每个大语言模型生成一张鹈鹕骑自行车的 SVG 图，然后比较画作。出乎意料的是，画作的好坏与模型在其他所有方面的能力之间存在很强的相关性。没人能解释原因。这已经成为了一个梗：Gemini 3.1 的发布视频中就出现了骑自行车的鹈鹕。AI 实验室对此心知肚明，并正在私下里进行竞争。不要错过我们的完整对话：https://t.co/ghZZeyvWBZ

AI开发AI 工程编程智能体Simon Willison

6528646169.8K

Sam Altman

@sama·2026/03/05

山姆·奥特曼宣布发布 GPT-5.4，其特点是增强了知识工作能力、具备原生计算机使用功能，并拥有 100 万 token 的上下文窗口。

GPT-5.4 正式发布，现已在 API 和 Codex 中上线，并将于今日内陆续推送到 ChatGPT。它在知识工作和网页搜索方面表现更佳，并具备原生的计算机使用能力。你可以在响应中途对其进行引导，且它支持高达 100 万 token 的上下文。

AI模型GPT-5.4OpenAIComputer Use

12.9K1.2K2.0K1.3M