山姆·奥特曼宣布发布 GPT-5.4,其特点是增强了知识工作能力、具备原生计算机使用功能,并拥有 100 万 token 的上下文窗口。
GPT-5.4 正式发布,现已在 API 和 Codex 中上线,并将于今日内陆续推送到 ChatGPT。 它在知识工作和网页搜索方面表现更佳,并具备原生的计算机使用能力。 你可以在响应中途对其进行引导,且它支持高达 100 万 token 的上下文。

每日精选海外AI圈最有价值的推文与见解,带你看清全球AI发展脉络
山姆·奥特曼宣布发布 GPT-5.4,其特点是增强了知识工作能力、具备原生计算机使用功能,并拥有 100 万 token 的上下文窗口。
GPT-5.4 正式发布,现已在 API 和 Codex 中上线,并将于今日内陆续推送到 ChatGPT。 它在知识工作和网页搜索方面表现更佳,并具备原生的计算机使用能力。 你可以在响应中途对其进行引导,且它支持高达 100 万 token 的上下文。

Google DeepMind 发布 Gemini 3.1 Pro,其在 ARC-AGI-2 基准测试中获得 77.1% 的高分,性能较前代版本实现翻倍。
很高兴发布 Gemini 3.1 Pro!各项能力均有大幅提升,包括核心推理和问题解决能力。例如,在 ARC-AGI-2 基准测试中取得了 77.1% 的高分 —— 性能是 3 Pro 的 2 倍以上。今天开始在 @GeminiApp、@antigravity 等平台陆续推出 —— 快来体验吧!

Anthropic 宣布推出 Claude Sonnet 4.6,在编程、推理方面迎来重大升级,并支持 100 万 Token 的超长上下文窗口。
这是 Claude Sonnet 4.6:我们迄今为止最强大的 Sonnet 模型。 它在编程、计算机使用、长上下文推理、智能体规划、知识工作和设计方面进行了全面升级。 它还在 Beta 测试版中支持 1M(100 万)Token 的上下文窗口。

OpenAI 宣布 GPT-5.3-Codex 正式上线,这是其代码生成模型系列的重大突破。
GPT-5.3-Codex 现已在 Codex 中上线。 你可以直接开始构建。 https://t.co/dyBiIQXGx1
Anthropic 宣布旗舰模型 Claude Opus 4.6 即刻在 Web 端、开发者 API 及各大云平台上线,支持自主任务执行。
Claude Opus 4.6 今日已在 claude.ai、Claude 开发者平台及所有主流云平台上线。 在 Cowork 内部,Opus 4.6 可以代表你自主调用这些技能完成工作。 阅读更多:https://t.co/khElu0O5Vp
Anthropic 宣布推出 Claude Opus 4.6,具备更强的规划能力、优化的智能体表现,并开启了 1M token 上下文窗口的 Beta 测试。
隆重推出 Claude Opus 4.6。我们最聪明的模型迎来了升级。 Opus 4.6 的规划更加周密,能够更长时间地执行智能体任务,在大型代码库中运行更加可靠,并能自我纠错。 这也是我们首款支持 1M token 上下文的 Opus 级别模型,目前正处于 Beta 测试阶段。

桑达尔·皮查伊介绍了 Nano Banana 2,这款全新的图像模型利用 Gemini 对世界的理解以及实时网页搜索数据,实现了极高保真度的视觉生成。
隆重推出 Nano Banana 2,我们迄今为止最出色的图像模型 🍌🍌 它利用了 Gemini 对世界的理解能力,并由来自网页搜索的实时信息和图像驱动。这意味着它能以高保真度更好地反映现实世界的状况。 欢迎体验“Window Seat”,这是一个利用 Nano Banana 2 的世界理解能力,从全球任何窗口生成精准视野的演示,它能提取实时本地天气信息并支持 2K/4K 规格。其精准度令人惊叹。 该模型今日起作为新默认配置在 @Geminiapp、搜索(覆盖 141 个国家/地区)和 Flow 中上线,并可通过 @GoogleAIStudio 和 Vertex AI 进行预览。此外,它也已在 Google @Antigravity 中提供。
Google DeepMind 推出 Gemini 3 Deep Think,在 ARC-AGI-2 和 Codeforces 等测试中创下新的 SOTA 纪录。
很高兴宣布 Gemini 3 Deep Think 的重大升级,它在数学、科学和推理等最严谨的基准测试中刷新了纪录——包括在 ARC-AGI-2 中达到 84.6%,在不使用工具的情况下完成“人类最后考试”达到 48.4%,以及在 Codeforces 上获得 3455 的 Elo 评分!

萨姆·奥特曼宣布面向 Pro 用户推出 GPT-5.3-Codex-Spark,其推理速度实现了每秒超过 1000 tokens 的重大突破。
GPT-5.3-Codex-Spark 今天作为 Pro 用户的研究预览版正式发布。 推理速度超过每秒 1000 tokens! 发布初期还存在一些限制,我们会迅速进行改进。
Greg Brockman 概述了 OpenAI 的战略转型及实践框架,旨在将工程团队转向“智能体优先”的开发工作流。
软件开发正发生在我们眼前的复兴。 如果你最近没用过这些工具,你可能低估了你所错过的东西。自 12 月以来,Codex 等工具的能力发生了阶跃式提升。昨天 OpenAI 的一些优秀工程师告诉我,他们的工作自 12 月以来发生了根本性的变化。在那之前,他们只能用 Codex 编写单元测试;而现在,它基本上编写了所有代码,并承担了大量的运维和调试工作。并非所有人都迈出了这一步,但这通常是因为模型能力之外的因素。 现在每家公司都面临着同样的机遇,而要驾驭好这一机遇——就像对待云计算或互联网一样——需要深思熟虑。这篇文章分享了 OpenAI 目前如何引导我们的团队向“智能体化软件开发”转型。我们仍在学习和迭代,但以下是我们目前的思考: 作为第一步,我们的目标是在 3 月 31 日前实现: (1) 对于任何技术任务,人类的首选工具是与智能体交互,而不是使用编辑器或终端。 (2) 人类使用智能体的默认方式被明确评估为安全,且具有足够的生产力,使得大多数工作流不需要额外的权限。 为了实现这一目标,我们几周前向团队提出了以下建议: 1. 花时间试用工具。工具本身就是最好的推销——许多人在几个月前放弃了 Codex 网页版,但在 Codex 5.2 中获得了惊人的体验。但许多人太忙了,还没机会尝试 Codex,或者陷入了纠结“它有没有办法做 X”,而不是直接尝试。 - 为你的团队指定一名“智能体负责人” (agents captain) —— 负责思考如何将智能体引入团队工作流的主要负责人。 - 在指定的内部频道分享经验或问题。 - 抽出一天时间举办公司范围内的 Codex 黑客松。 2. 创建技能和 AGENTS[.md]。 - 为你参与的任何项目创建并维护 AGENTS[.md];每当智能体出错或在任务中挣扎时,更新 AGENTS[.md]。 - 为你让 Codex 做的任何事情编写“技能” (skills),并将其提交到共享仓库的技能目录中。 3. 盘点并开放内部工具。 - 维护一份团队依赖的工具列表,并确保有人负责使其可被智能体访问(例如通过 CLI 或 MCP 服务器)。 4. 构建“智能体优先”的代码库。随着模型更迭如此之快,这在某种程度上仍是处女地,需要一些探索。 - 编写运行速度快的测试,并在组件之间创建高质量的接口。 5. 拒绝垃圾代码 (Say no to slop)。在大规模管理 AI 生成的代码是一个新兴问题,需要新的流程和规范来保持高代码质量。 - 确保有人对任何合并的代码负责。作为代码审查者,至少要保持与审查人类代码相同的标准,并确保作者理解他们提交的内容。 6. 完善基础架构。每个人都有很大的空间来构建基础架构,这可以由内部用户反馈来引导。核心工具正变得越来越好用,但目前工具周围还有很多配套设施,例如可观测性、不仅跟踪提交的代码还要跟踪导致这些代码的智能体轨迹 (agent trajectories),以及对智能体可用工具的集中管理。 总的来说,采用 Codex 这样的工具不仅是技术变革,也是深刻的文化变革,还有许多下游影响需要解决。我们鼓励每位管理者带领团队推进这一进程,并思考其他行动项 —— 例如,针对上述第 5 点,还有什么能防止大量“功能正确但难以维护的代码”潜入代码库。
Sam Altman 宣布推出 GPT-5.3-Codex,该模型在编程基准测试、运行速度和 Token 效率方面均有巨大提升。
GPT-5.3-Codex 正式发布! * 最强编程性能(57% SWE-Bench Pro,76% TerminalBench 2.0,64% OSWorld)。 * 任务中途可操控,并支持任务期间的实时更新。 * 速度更快!完成相同任务所需的 Token 数量不到 5.2-Codex 的一半,且单个 Token 速度提升 >25%! * 出色的计算机操作能力。
Andrej Karpathy 展示了如何将 GPT-2 级别模型的训练成本降低 600 倍,利用 nanochat 框架仅需 73 美元和 3 小时即可完成。
nanochat 现在可以用远低于 100 美元(约 73 美元,在单台 8xH100 节点上耗时 3 小时)的成本训练出 GPT-2 级别的 LLM。 GPT-2 是我最喜欢的 LLM,因为它是 LLM 技术栈首次以公认的现代形式呈现。因此,利用过去 7 年的进步,以更低的成本训练出一个具备 GPT-2 能力的模型,已经成了我的一种奇特且持久的执念。特别是我怀疑,在今天应该可以用远低于 100 美元的成本训练出一个。 最初在 2019 年,OpenAI 在 32 个 TPU v3 芯片上训练 GPT-2 耗时 168 小时(7 天),当时的单价是 8 美元/小时/TPUv3,总成本约为 4.3 万美元。它达到了 0.256525 的 CORE 评分,这是 DCLM 论文中引入的一项综合指标,涵盖了 ARC/MMLU 等 22 项评估。 随着最近合并到 nanochat 的几项改进(许多源自 modded-nanogpt 仓库),我现在可以在单台 8xH100 节点上用 3.04 小时(约 73 美元)达到更高的 CORE 评分。这在 7 年内实现了 600 倍的成本缩减,也就是说,训练 GPT-2 的成本每年大约下降 2.5 倍。我认为这可能还是低估了,因为我仍然在相对定期地发现更多改进,而且我还有一堆新想法等着去尝试。 关于优化细节的长文和复现指南请见:https://t.co/vhnK0d3L7B 受 modded-nanogpt 启发,我还创建了一个“GPT-2 训练时长”排行榜,这个首个“Jan29”模型以 3.04 小时位列第一。继续迭代会很有趣,欢迎大家帮忙!我希望 nanochat 能成长为一个非常优雅、简洁且经过调优的实验性 LLM 框架,用于原型设计、寻找乐趣,当然还有学习。 在那些开箱即用且能立即产生收益的改进中,最显著的是:1) Flash Attention 3 算子(速度更快,并允许通过 window_size 参数实现交替注意力模式);Muon 优化器(我曾尝试花一天时间删掉它只用 AdamW,但没成功);由可学习标量控制的残差路径和跳跃连接;以及值嵌入(value embeddings)。还有许多其他的小改进累积在一起。 配图:与推文半相关的“视觉享受”——推导当前 nanochat 模型系列的缩放法则,既漂亮又治愈!

吴恩达推出了图灵-通用人工智能测试,这是一个旨在通过衡量计算机执行真实世界工作任务的效率能否媲美熟练人类,来评估真正的通用人工智能(AGI)的新基准,以此对抗不切实际的 AI 炒作。
2026 新年快乐!今年会是我们最终实现通用人工智能(AGI)的一年吗?我想提出一个新版图灵测试,我称之为图灵-通用人工智能测试,以验证我们是否真正实现了通用人工智能。我稍后会解释为什么拥有一个新测试如此重要。 公众普遍认为,通用人工智能的实现意味着计算机将拥有如同人类的智慧,能够胜任大部分甚至全部知识工作。我想提出一个新测试。测试对象——无论是计算机还是经验丰富的专业人士——都将获准使用一台配备互联网接入、网页浏览器和 Zoom 等软件的计算机。评委将为测试对象设计一个为期数天的工作任务体验,所有互动都将通过计算机进行。例如,这个体验可能包括一段培训期(比如,作为呼叫中心接线员),随后被要求执行任务(接听电话),并获得持续反馈。这模拟了远程工作者在拥有功能完备计算机(但无摄像头)情境下的工作状况。 如果一台计算机能像熟练的人类一样出色地完成工作任务,那么它就通过了图灵-通用人工智能测试。 大多数公众成员可能相信,一个真正的通用人工智能系统会通过这项测试。当然,如果计算机的智能水平能与人类匹敌,它们理应能够像被雇佣的人类一样高效地完成工作任务。因此,图灵-通用人工智能测试与人们普遍理解的 AGI 含义相符。 这就是为什么我们需要一个新测试:“AGI”已经变成了一个炒作的词汇,而非一个具有精确定义的术语。一个合理的 AGI 定义是,能够完成人类所能进行的任何智力任务的 AI。当企业大肆宣扬他们可能在几个季度内实现通用人工智能时,他们通常会通过大幅降低标准来为其主张寻找依据。这种定义上的不匹配是有害的,因为它让人们认为人工智能变得比实际更强大。我看到这误导了从高中生(他们认为 AGI 即将到来,从而避免某些学习领域)到首席执行官(他们正在决定投资哪些项目,有时假设人工智能在 1-2 年内将比任何可能的现实更强大)的所有人。 原始图灵测试要求计算机通过文本聊天“欺骗”人类评委,使其无法辨别出它是机器而非人类,但这并不足以证明其具备人类水平的智能。洛布纳奖竞赛实际运行了图灵测试,结果发现要成功“欺骗”评委,模拟人类打字错误的能力可能比实际展示智能本身更为关键。当前人工智能发展的一个主要目标是构建能够完成具有经济价值的工作,而非仅仅“欺骗”评委的系统。因此,一个衡量工作能力的修订测试,将比衡量欺骗人类能力的测试更为有用。 对于今天几乎所有人工智能基准(例如 GPQA、AIME、SWE-bench 等),测试集都是预先确定的。这意味着人工智能团队至少在间接层面,会根据已发布的测试集来调整他们的模型。此外,任何固定的测试集都只衡量智能的一个狭窄片段。相比之下,在图灵测试中,评委可以自由提问以探究模型的能力。这使得评委可以测试计算机或人类知识的“通用性”究竟如何。同样,在图灵-通用人工智能测试中,评委可以设计任何体验——这些体验不会提前透露给被测试的 AI(或人类受试者)。这是衡量 AI 通用性的一种比预定测试集更好的方式。 人工智能正沿着惊人的轨迹持续进步。在过去的几十年里,过度炒作的期望导致了“人工智能寒冬”,当时对人工智能能力的失望导致了兴趣和资金的减少,直到该领域取得更多进展后才重新回升。少数可能阻碍人工智能发展巨大势头的原因之一,便是不切实际的炒作所造成的投资泡沫,这可能导致失望和兴趣的崩塌。为了避免这种情况,我们需要重新校准社会对人工智能的期望。一项测试会有所帮助。 如果我们举行图灵-通用人工智能测试竞赛,即使所有人工智能系统都未能通过,那也将是一件好事!通过化解围绕 AGI 的炒作并减少泡沫的可能性,我们将为人工智能的持续投资创造一条更可靠的道路。这将使我们能够继续推动真正的技术进步,并开发有价值的应用程序——即使这些应用程序远未达到 AGI。而如果这项测试能为一个团队设定一个明确的奋斗目标,让他们朝着实现 AGI 的荣耀迈进,那也将是极好的。我们可以确信,如果一家公司通过了这项测试,他们所创造的将不仅仅是一个营销上的发布——它将是无比宝贵的。 [原文链接:https://t.co/mGAmoOGga7 ]
吴恩达分享了在快速发展的 AI 领域中取得成功的系统建议,强调了正式学习、实际应用以及酌情阅读研究论文之间的平衡。
又一年的 AI 快速发展,为所有人——包括那些刚进入该领域的人——提供了比以往更多的软件构建机会。事实上,许多公司就是找不到足够熟练的 AI 人才。每个寒假,我都会花一些时间学习和实践,我希望你也能如此。这有助于我磨练旧技能、学习新技能,也能帮助你在科技领域发展职业生涯。 为了熟练地构建 AI 系统,我建议你: - 参加 AI 课程 - 练习构建 AI 系统 - (可选)阅读研究论文 让我来分享一下,为什么这些都至关重要。 我听说有些开发者建议其他人直接投入实践,而无需担心学习。这绝对是个糟糕的建议!除非你已经身处一个经验丰富的 AI 开发者社区中,否则在不理解 AI 基础的情况下投入实践,意味着你将冒着重复造轮子的风险,或者——更可能——只是拙劣地重复造轮子! 例如,在与求职者面试时,我曾遇到一些开发者,他们重新发明了标准的 RAG 文档分块策略,复制了代理式 AI 现有的评估技术,或者编写出混乱的 LLM 上下文管理代码。如果他们修了几门相关的课程,就会更好地理解已有的构建模块。即使他们想从头开始重建这些模块,甚至可能发明出比现有解决方案更优越的东西,也能避免数周不必要的工作。因此,结构化学习至关重要。此外,我发现上课真的很有趣。与其看 Netflix,我更喜欢随时观看一位知识渊博的 AI 讲师的课程! 然而,仅仅上课是远远不够的。许多经验只能通过动手实践才能获得。学习飞机工作原理的理论对于成为一名飞行员固然重要,但没有人仅仅通过上课就能学会驾驶飞机。在某个阶段,亲身坐进驾驶舱进行实践至关重要!好消息是,通过学习使用高度代理式的编码器,构建过程比以往任何时候都更加容易。而学习 AI 构建模块可能会激发你构建新事物的想法。如果我对要做什么项目没有灵感,我通常会去上课或阅读研究论文,这样过一段时间后,我总会涌现出许多新想法。此外,我发现实践真的很有趣,我希望你也能体会到这一点。 最后,并非所有人都有必要这样做,但我发现当今就业市场上许多最优秀的候选人至少偶尔会阅读研究论文。虽然我发现研究论文比课程更难理解,但它们包含了许多尚未被转化为更容易理解形式的知识。我将阅读研究论文的优先级放在上课和实践构建之下,但如果你有机会增强阅读论文的能力,我强烈建议你这样做。我发现上课和实践很有趣,而阅读论文可能更像是一项苦差事,但从中获得的灵光一闪的洞见却令人欣喜。 祝大家度过一个愉快的寒假和新年。除了学习和实践,我希望你们也能多花时间陪伴所爱之人——这一点同样重要! [原文链接: https://t.co/MaWDs0AbzG ]
Anthropic 发布研究预览版,允许 Claude 控制你的电脑,在 macOS 上执行诸如浏览应用程序和填写电子表格等任务。
现在你可以启用 Claude 来使用你的电脑完成任务了。 它能打开你的应用程序、浏览网页、填写电子表格——就像你坐在桌前操作一样。 目前在 Claude Cowork 和 Claude Code 中提供研究预览版,仅限 macOS 系统。

Midjourney 发布一篇详细博客文章,阐述 V8 模型的各项高级功能,包括提升的提示词遵循度、5 倍加速生成、全新网页界面、命令、定价详情,并呼吁社区提供反馈。
这是我们博客上关于 V8 的更详细的后续文章: 大家好!今天,我们正在 https://t.co/KwAgvvzJQk 上让社区测试 V8 模型的早期版本。我们需要您的反馈和帮助。让我们一起探索这个新模型能带来什么。 V8 是一个令人难以置信的模型。它能更好地遵循详细指令,并且在你提出要求时依然会带来惊喜。它通过个性化、风格参考(srefs)和情绪板来理解你的美学偏好的能力令人惊叹。图像更具连贯性和细节。文本渲染效果也比以往任何时候都好(在用引号指定时)。图像生成速度比以前快了约 5 倍。 我们已经升级了网页界面以支持这一速度。未来还会推出更多功能。我们改进了对话模式,让你能更流畅地‘交谈’;新增了‘网格模式’,让你能专注于单一的大型图像集;并且我们将设置移到了‘侧边栏’,这样你可以在调整设置时不会遮挡视图。 V8 发布时支持多种宽高比、--chaos、--weird、--exp 和 --raw 等参数。我们还支持与你的 V7 个性化配置文件、情绪板和风格参考(srefs)的向后兼容。 V8 引入了全新的 --hd 模式,可原生以 2K 分辨率渲染图像;如果你需要额外的连贯性,还有 --q 4 模式。 模式和定价:目前,Relax 模式尚不支持。我们正在为 Relax 模式和更便宜的渲染模式开发新的服务器集群。--HD、--Q4、SREF 和情绪板任务的速度是常规任务的 4 倍,并且每个任务的成本也是 4 倍(目前)。 帮助我们改进 V8 的最佳方式是在灯箱中对图像进行评分。在创作界面点击一张图像,然后尽可能多地点击你生成的 V8 图像上的“我喜欢这张图像”或“我不喜欢这张图像”。你可以使用 1/2/3 快捷键和方向键快速评分。 其他提示和技巧:如果你追求照片级效果或更‘简洁’、更‘可控’的风格,我们建议立即切换到 --raw 模式,或者使用情绪板或风格参考(srefs)来控制你的风格。我们仍在优化 V8 的‘默认’美学,但我们强烈建议你使用你的个性化设置,并尽快将其调至 –stylize 1000。目前,当你大量依赖我们的风格化系统并倾向于使用更长、更具体的提示词时,V8 将会发挥出最大的潜力。 请注意:这是一个全新的模型,具有独特的优势和劣势,我们希望从你们那里了解它的优缺点,但请记住,它可能需要全新的提示词风格。所以,请尽情尝试吧! 是时候玩起来了!在 #v8-showcase 中展示你的作品,并在 #ideas-and-feedback 中告诉我们你的想法。随着模型变得更加成熟,我们将举行一次社区范围的路线图优先级排序会议,以帮助我们确定下一步的重点。再次感谢大家在 V8 预发布评分活动中的帮助,也非常感谢你们成为 Midjourney 的一部分!让我们尽情享受,在这个广阔而共享的想象力海洋中发现新的奇迹吧。
OpenAI 发布了 GPT-5.4 mini 和 nano,这些新型号更小巧、功能更强大、速度更快,并针对编程和多模态理解等多种任务进行了优化。
我们正在推出 GPT-5.4 mini 和 nano,这是我们迄今为止功能最强的小型模型。 GPT-5.4 mini 的速度是 GPT-5 mini 的两倍多。它针对编程、计算机使用、多模态理解和子智能体进行了优化。 对于更轻量级的任务,GPT-5.4 nano 是我们最小、最便宜的 GPT-5.4 版本。 https://t.co/6E6cP6saWT

Google Chrome 现已支持 AI 代理原生访问真实的、已登录的浏览器会话,无需再依赖扩展程序或无头浏览器等变通方案。
Chrome 变得对代理极其友好了 🔥!你真实的、已登录的浏览器现在可以原生访问任何编程代理。 无需扩展程序。 无需无头浏览器。 无需截图。 无需单独登录。 只需一个开关即可启用。 快来看看:https://t.co/6ugwmOolnj
Anthropic 宣布,100 万 token 上下文窗口现已面向所有 Claude 套餐开放,并默认集成到 Claude Code 中。
现已面向所有套餐开放,并作为 Claude Code 的默认功能,采用标准定价。了解更多:https://t.co/mt78CySVN9
Anthropic 旗下的 Claude 现已支持在聊天界面中直接创建交互式图表和示意图,所有用户均可体验测试版。
Claude 现在可以直接在聊天中构建交互式图表和示意图了。 今天起,所有套餐(包括免费套餐)均可使用测试版。 立即体验:https://t.co/tHPAZRgQkn