Claude Opus 4.7 上线 48 小时,Artificial Analysis 评测并列全球第一,但代码能力退步、token 消耗涨 35%、接口直接报错,社区口碑严重分裂。


Claude Opus 4.7 上线 48 小时,Artificial Analysis 评测并列全球第一,但代码能力退步、token 消耗涨 35%、接口直接报错,社区口碑严重分裂。
Claude Opus 4.7 上线两天,AI 社区就被撕裂了。一边是 Artificial Analysis 给它打了 57 分,和 GPT-5.4、Gemini 3.1 Pro 并列全球第一;另一边是 Reddit 上"Opus 4.7 是严重倒退"的帖子冲上 3000 赞,用户集体抱怨更贵、更难用、更爱顶嘴。
同一个模型,有人看到 AGI 的影子,有人觉得工作流全炸了。这篇文章帮你拆清楚:Opus 4.7 到底升级了什么,又搞砸了什么。
先看硬数据。Artificial Analysis 的 Intelligence Index 给 Opus 4.7 打了 57 分,数学推理、多语言理解、长上下文处理多个维度创下新高。
更值得关注的是 GDPval-AA 测试(衡量模型在 44 种职业中完成真实知识工作的能力):
同时,4.7 的幻觉率比 4.6 下降了 25 个百分点,降到 36%。代价是它更频繁地选择"不作答" -- 宁可说不知道,也不瞎编。
但跑分是一回事,实际体验是另一回事。用户怒火集中在三个点上:
大量开发者反馈,从 4.6 升级到 4.7 后,之前能稳定完成的编程任务开始频繁出错。代码补全变迟钝,上下文理解退化,复杂逻辑链推理明显变弱。有用户做回归测试发现,4.7 自信地改挂了 3 个在 4.6 下能通过的测试。
不是速度慢了,是思考深度出现可感知的退化。以前能一步到位的复杂问题,现在需要反复追问。
NYT Connections Extended 基准测试(940 道逻辑推理题)的数据更直观:
Anthropic 自己的 System Card 中也显示,100 万 token 上下文的 MRCR v2 测试:
Anthropic 没有调价,但新分词器处理相同文本时 token 用量可能达到原来的 1.0-1.35 倍。昨天花 10 美元的 prompt,今天可能要 11-13.5 美元。
更隐蔽的破坏发生在接口层面:
thinking={"type": "enabled", "budget_tokens": 32000} 在 4.6 上跑得好好的,换 4.7 直接返回 400 错误。需要改成 thinking={"type": "adaptive"} 加新的 effort 参数另一个被广泛吐槽的变化是 4.7 变得"带攻击性"。Anthropic 官方迁移指南里有一句关键的话:
Claude Opus 4.7 会以更字面、更明确的方式理解提示词。
也就是说:4.6 会"猜你的意思",4.7 会"照你说的做"。如果你的 prompt 本来就写得含糊,4.6 可以帮你脑补,但 4.7 不会。
对于 prompt 写得精确的用户(比如 Cursor 设计师 Ryo Lu),这种精确执行正是他需要的。但对于习惯了"模糊指令 + AI 自动补全"的用户来说,这就变成了"不听话"。
简单总结:
| 维度 | 4.6 | 4.7 |
|---|---|---|
| 综合智能指数 | 优秀 | 并列全球第一 |
| 知识工作能力 (GDPval-AA) | 1619 Elo | 1753 Elo (+79) |
| 幻觉率 | 61% | 36% (-25) |
| 逻辑推理 (NYT Connections) | 94.7% | 41.0% |
| 代码能力 | 稳定 | 部分场景退步 |
| Token 消耗 | 基准 | +0~35% |
| Thinking 展示 | 默认展示 | 默认隐藏 |
建议:如果你是重度代码用户或依赖逻辑推理的工作流,建议先在非关键任务上测试 4.7 的表现再决定是否全面迁移。如果你主要做知识型工作、长文档处理或需要更低幻觉率,4.7 在这些维度上确实更强。
Anthropic 员工 Alex Albert 已确认发布首日遇到的部分 bug 已修复。但信任这种东西,消耗容易,重建很慢。

无需海外手机号和 Visa 卡,用国产模型也能跑 Claude Code。Mac 和 Windows 双平台完整安装流程,从安装框架到接入 GLM-5.1 全流程指引。

Claude Design 能做网页、PPT、原型图甚至动画视频。本文整理了最全玩法和官方实用技巧,附体验地址和提示词示例。

Anthropic 研究员 Erik Schluntz 分享生产环境中负责任地使用 Vibe Coding 的实战经验,涵盖 22000 行代码合并案例、叶子节点策略和进阶技巧。