精选推文

每日精选海外AI圈最有价值的推文与见解,带你看清全球AI发展脉络

宝玉分享了一篇关于 AI 的文章链接,但推文本身无文字内容,仅包含链接。

https://t.co/ggsCzAUO0i

AI_CODINGAI文章分享
11101.0K

what if we name the next model "goblin" almost worth it to make you all happy...

5.0K2861.7K336.7K

Garry Tan 分享了他使用 Claude Code 调试 OpenClaw PATH 问题的真实经历,突显了当前 AI 辅助开发的挑战与生产力提升。

我今天就亲身经历了这个。OpenClaw 搞乱了自己的 PATH 环境变量,我花了一上午时间深入 Dockerfile 并使用 Claude Code 来移除这个 bug……但到了下午,我又能飞速前进了。

AI_CODINGOpenClawClaude CodeAI 编程
7721611.2K

Garry Tan 点赞了一条关于其开源项目 'gstack' 的详细推文,该项目将 AI 定位为软件团队的多角色协调者,并声称能带来 810 倍的生产力提升。

这很酷

Tweet media 1
AI_CODINGgstackAI 编程AI 智能体
281141529.3K

Sam Altman 认为用户使用 Codex 通过安全审计赏金自主赚取 16.88 美元这件事很有趣。

有趣。

AI_CODINGCodexAI 代理自主 AI
1.4K59198291.5K

Sam Altman 回应一位批评者,暗示下一代 OpenAI 模型将改变其看法。

@icanvardar 我很期待,在体验了下一代模型之后,你是否还会坚持现在的看法!

AI资讯OpenAISam Altman下一代模型
1.3K2216358.1K

一场关于上下文工程的工作坊提出,其核心约 80% 是 Agentic Search,并全面覆盖了从 shell 工具到语义搜索的工具生态。

Agentic Search 与上下文工程 @helloiamleonie 的锐评:上下文工程大约 80% 是 Agentic Search。从上下文源到上下文窗口的这条链路,完成了绝大部分工作。 https://t.co/Iu2nkU2NdZ 该工作坊涵盖了完整的工具生态:shell 工具、语义搜索、通用查询执行、agent 技能,以及它们各自的失效场景。其中还包括 agent 通过串联 grep 同义词来伪造语义搜索的案例。 低门槛工具(专一性强,易用正确)vs 高上限工具(通用性强,能处理意外情况)。你可能两者都需要,工作坊会教你如何选择。

Tweet media 1
AI开发Agentic Search上下文工程AI Agent
42812.0K

Garry Tan 报告称,他的两个 AI 智能体 OpenClaw 和 Hermes 现在正在相互通信。

它发生了。我的 OpenClaw 和 Hermes Agent 现在正在互相聊天。 赛博朋克的未来已经到来,但希望它是“白丸”而非“黑丸”。让我们努力把它推向前者。

Tweet media 1
AI开发AI 智能体OpenClawHermes
7012612241.7K

Finbarr Taylor 描绘了一个未来场景:AI Agent 通过非确定性研究阶段编写脚本,然后在重复任务中立即执行该脚本,将代码转化为记忆。

我的朋友 @finbarr 说:这就像代码即记忆。你以非确定性的方式与你的 Agent 协作,找出如何执行一个任务。第一次,它会做大量的研究并编写一个脚本,然后执行这个脚本。以后每次遇到同样的任务,它就直接执行这个脚本。 未来已经到来,它可能并不在你的手中——除非你决定去构建它。

AI开发AI Agent代码即记忆AI 工作流
219163429.4K

Hugging Face 首席执行官分享数据,显示 GGUF 模型创建量显著加速,2025 年 3 月至 4 月期间,月均新增模型数量几乎翻倍,从约 5.1K 增长至约 9.2K。

本地 AI 迎来了它的高光时刻! 以下是过去 8 个月每月新创建的 GGUF 模型数量,以及我们 Hugging Face 内部 Agent 的分析洞察(5 月数据为部分统计): - Hugging Face 上共有 176,000 个公开 GGUF 模型 - 两个明显的阶段:10 月至 2 月,月均新增约 5.1K 个 GGUF 模型。随后 3 月至 4 月,月均新增跃升至约 9.2K 个——几乎是之前速率的两倍。 - 3 月是转折点(环比增长 55%)——很可能是由一波新发布的开放权重模型被量化成 GGUF 格式所驱动。 - 4 月保持了这一势头,新增 9.7K 个,表明这并非一次性的激增,而是新的常态。 - GGUF 生态系统正在加速发展——社区量化模型的速度比以往任何时候都快,这很可能要归功于更好的工具链(llama.cpp 的改进、自动化量化流水线,以及更多原生支持 GGUF 的模型)。 冲!

Tweet media 1
AI开发GGUF本地 AIHugging Face
172294517.6K

Yann LeCun 通过列举全球多个研究中心的重大 AI 突破,反驳了 Elad Gil 关于硅谷在 AI 领域占据主导地位的说法。

@eladgil 胡说。 Attention 诞生于蒙特利尔 PyTorch 诞生于纽约 AlphaGo 诞生于伦敦 AlphaFold 诞生于伦敦 ESMFold 诞生于纽约 Llama 1 诞生于巴黎 Llama 2 诞生于巴黎+纽约+硅谷 DeepSeek 诞生于杭州 此外还有: DINO 诞生于巴黎 JEPA 诞生于蒙特利尔+巴黎+纽约 硅谷只是在它特别痴迷的少数几个议题上领先了 3 个月。

AI资讯AI 研究硅谷Yann LeCun
5.1K350125291.7K

Agent = Model + Harness — Why Claude Code, Cursor & Codex Behave Differently (Same Model) https://t.co/ToVXJj23OX

500956

分享了一个关于 Agent 架构的 YouTube 视频链接。

https://t.co/ToVXJj23OX

AI开发AgentClaude CodeCursor
000553

Demis Hassabis 分享了一部关于 AlphaGo 与李世石历史对决的获奖纪录片链接。

另外,如果你有兴趣了解更多关于这场历史性对决的信息,可以在这里观看这部精彩的获奖纪录片:https://t.co/DkDU3q4HVn

AI资讯AlphaGo纪录片Demis Hassabis
553821.7K

Delphi、C#、TypeScript 核心设计者 Anders Hejlsberg 在访谈中阐述 AI 不会取代程序员,而是成为加速器,并给出对学习编程、Vibe Coding、计算机科学学位和未来软件工程师角色的深刻见解。

Delphi、C#、TypeScript 核心设计者 Anders Hejlsberg 谈 AI 与 Coding 的未来 AI 永远不能取代 Coders,而是会成为加速器,为什么? 1. AI 自身依赖代码而存在 —— 编程语言、编译器、框架、操作系统、CPU,都需要人去设计。AI 假定这些"下面的世界"已经存在。 2. AI 擅长重复模式(它训练集里见过无数遍的 To-Do 应用),但不擅长创新——业务逻辑、新发明、深层架构决策都来自人。 3. 行业的进步来自"洗澡时冒出的疯狂想法",AI 不会那样工作。 他对 "vibe coding" 态度明确:高度怀疑。代码总得来自某处,并不全由 AI 生成。 对学习者的建议 是否还值得学编程? 绝对值得。编程语言是 AI 表达自己的方式;不懂代码就无法理解 AI 在生成什么、依赖什么。 初学者最常见的错误 不去真正理解:变量是什么、数组是什么、数据结构是什么、指针怎么工作。一旦"grok"(吃透)这些,语言只是表层语法 —— 不同语言只是同一语义的不同外衣。停留在语法层,你只知道"要写什么",不知道"为什么写"。 计算机科学学位是否值得 值得。自学固然可行(他自己当年丹麦的工程学院尚未开设 CS),但系统教育能在数据结构、操作系统、数据库、编程语言原理上节省大量时间。 配合一句他的个人观点:热爱比什么都重要——"我从没有过一份真正的工作,因为编程一直是我的爱好"。 AI 时代该做什么项目 · 喜欢 UI/体验 → 写应用; · 喜欢极致性能 → 写无 UI 的系统层代码; · 喜欢理论 → 研究算法与数据结构。 C# 与 TypeScript 的设计哲学 C#:融合,而非二选一 90 年代要么选 VB(易用)、要么选 C++(强大)。C# 把两者合并,并把当时 OOP 中人人都在用、却没语言支持的 property、event 升格为一等公民。 原则:承认现实中的通用模式,做进语义层。 TypeScript:修 JS,而非绕开它 面对"JS 写大型应用很痛苦",Hejlsberg 的反应不是另造语言,而是问: "JavaScript 哪里坏了?能不能修好?" 加类型,不是为了类型本身,而是为了让工具成为可能——补全、跳转、红波浪线。 "开发者体验过就回不去了。" 对 Python 的旁注:没人用它写百万行应用——规模一上来,类型与工具不再是奢侈品。 五年后软件工程师做什么? AI 接管 grunt work(写测试、填模板、PR 流水任务),人则上移到: · 设计 CPU、操作系统、编译器、框架; · 想出"如何 shard 这个应用让创业公司跑得更快"这类架构决策; · 提出新点子。 "AI 是加速器,不是创新者。" 访谈视频地址 https://t.co/xVbcfH0PMf

Tweet media 1
AI资讯Anders HejlsbergAI 与编程Vibe Coding
17032.5K

通过视觉对比,展示 AI 生成的“一键式”网站在短短一年内从 2025 年到 2026 年的飞速进化。

AI 一键式网站对比:2025 年 vs 2026 年。 https://t.co/b4adLHslEU

Tweet media 1
Tweet media 2
AI_CODINGAI 编程一键式网站Slop
1.5K45116239.7K

深入解析 Agent = Model + Harness 架构,指出同一模型在不同外壳下的性能差异源于提示词、工具、上下文策略等工程配置,并提出「棘轮」工作法将每次失误转化为永久规则。

Claude Code、Cursor、Codex、Aider、Cline 部分底层模型可能完全相同,但 Agent 表现却不一样,为什么? @addyosmani 认为:是因为模型之上的那层“外壳” —— Harness,它包括「提示词、工具、上下文策略、钩子、沙箱、子智能体、反馈回路、恢复路径」等。 Agent = Model + Harness 重新系统看看什么是 Harness? 凡是"不是模型本身"的部分都属于外壳: · 指令层:System prompt、CLAUDE.md、AGENTS.md、skill 文件、子 agent 指令 · 能力层:工具、skills、MCP servers 及其描述 · 基础设施:文件系统、沙箱、无头浏览器 · 编排层:子 agent 派发、任务交接、模型路由 · 执行控制:hooks、中间件(lint、上下文压缩等确定性逻辑) · 可观测性:日志、trace、成本与延迟监控 裸模型不是 agent。只有当外壳为它提供了状态、工具执行、反馈回路和强制约束,它才成为 agent。 思维范式的切换:不是"模型问题",是"配置问题" 行业默认反应是:agent 出错 → 等下一代模型。 Harness Engineering 拒绝这个默认。 每一类失败都是可定位的工程信号: · 忽略代码规范:写进 AGENTS.md · 执行破坏性命令:加 hook 阻止 · 长任务中途失焦:拆分为 planner + executor · 写出无法编译的代码:把 type-check 作为反压信号注入回路 同一个模型,放在精调过的外壳里,性能可以远高于跑在通用框架上。当前模型理论能力与你实际看到的能力之间的差距,主要是 harness gap。 最关键的工作方法:棘轮(The Ratchet) 每一次失误都变成一条永久规则。 · 一次"提交了被注释掉的测试"的事故 → AGENTS.md 增加"绝不注释测试",pre-commit hook 检测 .skip(,reviewer 子 agent 拦截。 · 约束只在观察到真实失败时加入,只在更强模型让它冗余时才移除。 · 系统提示词里每一行都应能追溯到一次具体的历史失败。 推论:没有通用最优 harness。 一个 harness 是一个代码库的"失败史"塑造出来的,是工程纪律而非框架。 设计方法:从行为反推组件 1. 文件系统 + Git —— 持久化状态 模型只能操作进入上下文窗口的内容。文件系统是工作区、暂存区、多 agent 协调面。Git 提供免费版本控制、分支实验、回滚。 2. Bash + 代码执行 —— 通用工具 ReAct 循环(reason → act → observe → repeat)。与其为每个动作预建工具,不如让 agent 用 bash 现场组装。Agent 在 shell 上表现普遍很强。 3. 沙箱 + 默认工具链 Bash 必须安全运行。好沙箱预装运行时、测试 CLI、无头浏览器,让 agent 能"自我验证"。 4. 记忆 + 搜索 —— 持续学习 模型不知道训练之后的世界。AGENTS.md 在每次会话注入领域知识;web search 和 MCP 工具补足实时信息。 5. 对抗 Context Rot 上下文越满,推理越退化。三种主要手法: · Compaction:智能压缩与卸载旧上下文 · Tool-call offloading:长输出(如 2000 行日志)落盘,只在上下文里保留头尾 · Progressive disclosure:按需披露指令和工具,而不是启动时全量加载 6. 长程执行 应对"过早停止"和"分解失败": · Loops:拦截模型的退出意图,在新上下文窗口里强制继续推进完成目标 · Planning:强制写出步骤计划文件,每步后用 self-verification hook 检查 · Splits:生成与评估拆给不同 agent,规避模型自评的正向偏差 7. Hooks —— 强制层 连接"请求行为"和"强制行为"。生命周期挂载点:工具调用前、文件编辑后、提交前。 成功应当沉默,失败应当冗长。typecheck 通过则无声;失败则把错误直接注入回路供自纠。 8. 规则手册和工具选择 · AGENTS.md 仍是仓库根部最高杠杆的配置点。但要把它当飞行员检查清单,不是风格指南——简短,每条都有失败史背书。 · 十个高度聚焦的工具,永远胜过五十个互相重叠的工具。 · 工具描述会进入 prompt,所以未审计的 MCP server 等同于 prompt 注入风险面。 生产中的样子 把对 Claude Code 架构的推测性拆解作为成熟外壳的参照 · 上下文注入 = 知识层 · 循环状态 = memory store + worktree 隔离器 · 破坏性动作 hook = 权限闸 · 子 agent 上下文防火墙 = 多 agent 层 · 工具 dispatch registry = MCP 与 bash 的统一插槽 外壳不会消失,只会迁移 模型变强不会让外壳消失,而是让它位移: · 老一代模型催生的"上下文焦虑缓解层"已经被新模型大幅淘汰 · 但能力上限抬高的同时,新的失败模式也随之出现 · 外壳里每一块脚手架都编码了"模型当前不能独立做到什么"——模型变强,过时的拆掉,新的搭起来去够下一条地平线 训练循环的反馈 模型 post-training 时通常会带特定 harness 入环 → 模型对这些 harness 偏向的动作(文件系统操作、bash、子 agent 派发)格外擅长 → 形成一定程度的过拟合。 最佳 harness 是为你具体任务和工作流定制的那个。 Harness-as-a-Service 行业从"在 LLM API(提供 completion)上构建"转向"在 Harness API(提供 runtime)上构建"。SDK 直接交付循环、工具、上下文管理、hooks、沙箱。 新默认范式:选一个 harness 框架 → 配置其核心支柱 → 只专注于领域特定的 prompt 与工具设计。 这让排错变成"调一个良好分层的配置面",而不是"重造整个 agent 架构"。 未来方向 · 顶尖编码 agent 之间的相似度,已经高于它们底层模型之间的相似度——外壳模式在收敛 · 开放问题正在越过"单 agent":多 agent 并行编排、agent 分析自身 trace 修复 harness 级故障、按需即时组装工具的环境 · 下一阶段:harness 不再是静态配置文件,而越来越像编译器。

Tweet media 1
AI开发AgentHarness EngineeringAI Agent 架构
53976.2K