Andrej Karpathy 的推文 | 精选推文

Andrej Karpathy

@karpathy·2026/04/09·2026/04/09

从我的时间线来看，人们对 AI 能力的理解差距正变得越来越大。第一个问题我认为在于使用的时效性和层级。我觉得很多人在去年某个时候试过 ChatGPT 的免费版，就以此定型了他们对 AI 的看法。这一群体经常嘲笑模型的各种怪癖、幻觉等。没错，我也看到过 OpenAI 的高级语音模式（Advanced Voice Mode）在处理“我该开车还是走路去洗车房”这种简单问题时翻车的爆火视频。问题在于，这些免费且陈旧/已弃用的模型，并不能反映今年最新一代 SOTA 智能体模型的能力，尤其是 OpenAI Codex 和 Claude Code。这就引出了第二个问题。即便人们每月支付 200 美元使用最先进的模型，很多能力在高度技术化的领域也是相对“尖峰化”的。常见的搜索、写作、建议等查询，并不是能力提升最显著、最剧烈的领域。部分原因在于强化学习的技术细节及其对可验证奖励的使用；但部分原因也是因为这些用例在公司的“爬山算法”优化中优先级不够高，因为它们带来的商业价值没那么大。真正的金矿在别处，焦点自然也随之而去。所以这引出了第二类人，他们既 1) 付费并使用最前沿的智能体模型（OpenAI Codex / Claude Code），又 2) 在编程、数学和科研等技术领域进行专业化使用。这类人正经历着程度最高的“AI 心理震撼”，因为截至今年，这些领域的进步简直令人惊叹。当你给这些模型一个计算机终端时，你可以看着它们瞬间化解掉你通常认为需要几天甚至几周才能完成的编程难题。正是这第二类人，对 AI 的能力、进化斜率以及各种网络相关的潜在影响赋予了极高的关注权重。简而言之，这两类人完全是在各说各话。现实情况是：OpenAI 那个免费的、感觉有点像被遗弃的（？）“高级语音模式”会在你 Instagram 的 Reels 视频里搞砸最愚蠢的问题；而与此同时，OpenAI 最高级的付费 Codex 模型可以连续运行 1 小时，有条不紊地重构整个代码库，或者发现并利用计算机系统的漏洞。这部分功能确实非常强大，并取得了戏剧性的进展，原因有二：1) 这些领域提供明确且可验证的奖励函数，意味着它们非常适合强化学习训练（例如，单元测试是否通过是明确的，而写作好坏则很难客观评判）；2) 它们在 B2B 场景中价值更高，这意味着团队的大部分精力都集中在改进这些功能上。现状便是如此。

5.4K600336441.2K

一句话总结

Andrej Karpathy 解释了人们对 AI 认知脱节的原因，强调了技术领域的尖端智能体模型（Agentic Models）相比免费消费级模型已取得惊人飞跃。

摘要

Andrej Karpathy 分析了为何公众对 AI 的看法如此两极分化。他指出了两个核心问题：首先，许多用户仍基于过时或免费版模型来形成观点，这些模型并不具备 OpenAI Codex 或 Claude Code 等最新 SOTA（顶级）系统的能力。其次，最显著的进步是“尖峰式”的，集中在编程、数学和科研等技术领域，这些领域拥有可验证的奖励函数，能进行高效的强化学习。他指出，虽然面向消费者的语音模式可能连简单问题都会搞砸，但前沿智能体模型已能自主解决以往需要数周才能完成的复杂工程问题，这让亲眼目睹这种力量的技术专业群体产生了某种“AI 心理震撼（AI Psychosis）”。

评分

优质

综合质量评分

分类与标签

AI资讯AI 能力智能体模型强化学习OpenAI CodexClaude Code

查看原推

相关推文

Andrew Ng

@AndrewYNg·2026/01/06

吴恩达推出了图灵-通用人工智能测试，这是一个旨在通过衡量计算机执行真实世界工作任务的效率能否媲美熟练人类，来评估真正的通用人工智能（AGI）的新基准，以此对抗不切实际的 AI 炒作。

2026 新年快乐！今年会是我们最终实现通用人工智能（AGI）的一年吗？我想提出一个新版图灵测试，我称之为图灵-通用人工智能测试，以验证我们是否真正实现了通用人工智能。我稍后会解释为什么拥有一个新测试如此重要。公众普遍认为，通用人工智能的实现意味着计算机将拥有如同人类的智慧，能够胜任大部分甚至全部知识工作。我想提出一个新测试。测试对象——无论是计算机还是经验丰富的专业人士——都将获准使用一台配备互联网接入、网页浏览器和 Zoom 等软件的计算机。评委将为测试对象设计一个为期数天的工作任务体验，所有互动都将通过计算机进行。例如，这个体验可能包括一段培训期（比如，作为呼叫中心接线员），随后被要求执行任务（接听电话），并获得持续反馈。这模拟了远程工作者在拥有功能完备计算机（但无摄像头）情境下的工作状况。如果一台计算机能像熟练的人类一样出色地完成工作任务，那么它就通过了图灵-通用人工智能测试。大多数公众成员可能相信，一个真正的通用人工智能系统会通过这项测试。当然，如果计算机的智能水平能与人类匹敌，它们理应能够像被雇佣的人类一样高效地完成工作任务。因此，图灵-通用人工智能测试与人们普遍理解的 AGI 含义相符。这就是为什么我们需要一个新测试：“AGI”已经变成了一个炒作的词汇，而非一个具有精确定义的术语。一个合理的 AGI 定义是，能够完成人类所能进行的任何智力任务的 AI。当企业大肆宣扬他们可能在几个季度内实现通用人工智能时，他们通常会通过大幅降低标准来为其主张寻找依据。这种定义上的不匹配是有害的，因为它让人们认为人工智能变得比实际更强大。我看到这误导了从高中生（他们认为 AGI 即将到来，从而避免某些学习领域）到首席执行官（他们正在决定投资哪些项目，有时假设人工智能在 1-2 年内将比任何可能的现实更强大）的所有人。原始图灵测试要求计算机通过文本聊天“欺骗”人类评委，使其无法辨别出它是机器而非人类，但这并不足以证明其具备人类水平的智能。洛布纳奖竞赛实际运行了图灵测试，结果发现要成功“欺骗”评委，模拟人类打字错误的能力可能比实际展示智能本身更为关键。当前人工智能发展的一个主要目标是构建能够完成具有经济价值的工作，而非仅仅“欺骗”评委的系统。因此，一个衡量工作能力的修订测试，将比衡量欺骗人类能力的测试更为有用。对于今天几乎所有人工智能基准（例如 GPQA、AIME、SWE-bench 等），测试集都是预先确定的。这意味着人工智能团队至少在间接层面，会根据已发布的测试集来调整他们的模型。此外，任何固定的测试集都只衡量智能的一个狭窄片段。相比之下，在图灵测试中，评委可以自由提问以探究模型的能力。这使得评委可以测试计算机或人类知识的“通用性”究竟如何。同样，在图灵-通用人工智能测试中，评委可以设计任何体验——这些体验不会提前透露给被测试的 AI（或人类受试者）。这是衡量 AI 通用性的一种比预定测试集更好的方式。人工智能正沿着惊人的轨迹持续进步。在过去的几十年里，过度炒作的期望导致了“人工智能寒冬”，当时对人工智能能力的失望导致了兴趣和资金的减少，直到该领域取得更多进展后才重新回升。少数可能阻碍人工智能发展巨大势头的原因之一，便是不切实际的炒作所造成的投资泡沫，这可能导致失望和兴趣的崩塌。为了避免这种情况，我们需要重新校准社会对人工智能的期望。一项测试会有所帮助。如果我们举行图灵-通用人工智能测试竞赛，即使所有人工智能系统都未能通过，那也将是一件好事！通过化解围绕 AGI 的炒作并减少泡沫的可能性，我们将为人工智能的持续投资创造一条更可靠的道路。这将使我们能够继续推动真正的技术进步，并开发有价值的应用程序——即使这些应用程序远未达到 AGI。而如果这项测试能为一个团队设定一个明确的奋斗目标，让他们朝着实现 AGI 的荣耀迈进，那也将是极好的。我们可以确信，如果一家公司通过了这项测试，他们所创造的将不仅仅是一个营销上的发布——它将是无比宝贵的。 [原文链接：https://t.co/mGAmoOGga7 ]

AI资讯吴恩达通用人工智能图灵测试

1.5K255177160.7K

Andrew Ng

@AndrewYNg·2026/01/23

吴恩达（Andrew Ng）指出，企业若想通过 AI 获得变革性影响，必须超越零散的自下而上实验，转而采取自上而下的战略视角，对整个业务工作流进行端到端的重构。

企业如何才能超越单纯利用 AI 提升局部效率，从而创造出变革性的影响？我目前正在瑞士达沃斯参加世界经济论坛（WEF），并在现场撰写此文。在这里，我与许多 CEO 深入交流了如何利用 AI 驱动增长。一个反复出现的主题是：开展大量实验性的、自下而上的 AI 项目——即所谓的“百花齐放”——并没能带来显著收益。相反，更大的回报源于“工作流重构”：对流程中的多个步骤采取更宏观、甚至是自上而下的视角，从端到端彻底改变它们的协同方式。以银行发放贷款为例，其工作流包含几个独立阶段：营销 -> 申请 -> 初步审批 -> 最终审查 -> 执行假设过去每个步骤都靠人工。如果初步审批原本需要 1 小时的人工审查，而现在用一个新的代理系统（Agentic System）在 10 分钟内自动完成。仅仅是将人工审查替换为 AI 审查，而保持其他环节不变，只能带来微小的效率提升，并不具备变革性。真正的变革应该是这样的：与其让申请人等待一周才能得到人工审批结果，不如让他们在 10 分钟内就拿到决定。一旦实现这一点，贷款就变成了一款极具竞争力的产品，这种极佳的客户体验能吸引更多申请，最终提升放款量。然而，实现这种转变需要从更广阔的业务或产品视角出发，而非单纯的技术视角。此外，它会改变贷款处理的整个工作流。要提供“10 分钟到账贷款”产品，就必须改变营销方式，申请过程需要全面数字化并实现更高效的流转，最终审查和执行环节也必须重构，以应对更大的业务量。即便 AI 仅应用于“初步审批”这一步，我们最终实现的也不再是一个孤立的点状解决方案，而是通过重构工作流实现了产品服务的彻底转型。在我共同领导的咨询公司 AI Aspire，我们观察到：自下而上的创新固然重要，因为最接近一线问题的人往往最先看到解决方案。但要将这些想法规模化并产生变革性影响，通常需要洞察 AI 如何端到端地重塑整个工作流，而不仅仅是单个步骤，这正是自上而下的战略指引和创新大显身手的地方。与往年一样，今年的 WEF 会议同样充满活力。技术专家们热议的话题包括：代理式 AI（Agentic AI，当我首创这个术语时，完全没想到它会出现在满大街的广告牌和建筑上！）、主权 AI（Sovereign AI，即各国如何掌控自己的 AI 准入）、人才问题（应届生面临的就业挑战以及全民技能提升），以及数据中心基础设施（如何解决能源、人才、GPU 芯片和内存的瓶颈）。我将在未来的文章中详细探讨这些话题。在全球地缘政治充满不确定性的背景下，我希望 AI 领域的同仁们能继续搭建连接各国的桥梁，通过开源进行分享，并为了造福所有国家和人民而持续创造。 [原文链接: https://t.co/Ck52mNGX4a ]

AI资讯AI 战略工作流重构业务转型

7371558873.8K

李继刚

@lijigang·2025/12/31

李继刚提出一种利用 AI 工具（Gemini）实现创新阅读的方法，通过双窗口 Prompt 将书籍“读厚”和“读薄”。

AI 时代，应有一套独有的「读书法」。之前用过苏轼的「八面受敌读书法」、万维刚的「强力研读读书法」、以及「卡片读书法」，都是在AI 出现之前的读法。现在我们拥有了这个大杀器，理应走出一条新路。最近在不断尝试，其中一种方式： 1. 双开Gemini窗口 2. 左侧窗口写一个伴读Prompt，用于针对当前在读书目进行伴读，目标是将书「读厚」 3. 右侧窗口写一个生图Prompt，用于将左侧解读内容可视化，目标是将书「读薄」

AI资讯AI阅读GeminiPrompt Engineering

6481372272.8K

Sam Altman

@sama·1周前

OpenAI 即将在未来几天内向关键网络防御者推出前沿网络安全模型 GPT-5.5-Cyber。

我们将在未来几天内向关键网络防御者推出 GPT-5.5-Cyber，这是一款前沿网络安全模型。我们将与整个生态系统及政府合作，为网络安全领域确定可信的访问方式；我们希望快速帮助保护企业和基础设施的安全。

AI资讯GPT-5.5-CyberOpenAI网络安全

11.2K697945781.5K