toolin.ai logo
toolin.ai
首页
AI工具
AI技能包
AI资讯
精选推文
AI提示词
提交AI工具提交
toolin.ai logo
toolin.ai

百万AI玩家的创作利器库,发现最佳AI工具组合,提升您的创作效率

AI工具961个
技能包11个
产品功能
  • AI工具
  • AI技能包
  • AI资讯
  • 精选推文
关于我们
  • 关于Toolin
  • 联系我们
  • 合作洽谈
  • 更新日志
关注我们
© 2025 toolin.ai. All rights reserved.
服务条款隐私政策

Claude Opus 4.7 实测:跑分第一,但用户口碑两极分化

2026/04/18
·toolin小编

Claude Opus 4.7 上线 48 小时,Artificial Analysis 评测并列全球第一,但代码能力退步、token 消耗涨 35%、接口直接报错,社区口碑严重分裂。

Claude Opus 4.7 实测:跑分第一,但用户口碑两极分化
Claude Opus 4.7 实测:跑分第一,但用户口碑两极分化
2026/04/18

Claude Opus 4.7 实测:跑分第一,但用户口碑两极分化

Claude Opus 4.7 上线 48 小时,Artificial Analysis 评测并列全球第一,但代码能力退步、token 消耗涨 35%、接口直接报错,社区口碑严重分裂。

跑分确实在涨用户为什么炸了1. 代码能力断崖下滑2. 推理质量倒退3. 花更多钱,体验更差迁移成本被低估"顶嘴"是怎么回事你该不该升级
AI产品

Claude Opus 4.7 上线两天,AI 社区就被撕裂了。一边是 Artificial Analysis 给它打了 57 分,和 GPT-5.4、Gemini 3.1 Pro 并列全球第一;另一边是 Reddit 上"Opus 4.7 是严重倒退"的帖子冲上 3000 赞,用户集体抱怨更贵、更难用、更爱顶嘴。

同一个模型,有人看到 AGI 的影子,有人觉得工作流全炸了。这篇文章帮你拆清楚:Opus 4.7 到底升级了什么,又搞砸了什么。

跑分确实在涨

先看硬数据。Artificial Analysis 的 Intelligence Index 给 Opus 4.7 打了 57 分,数学推理、多语言理解、长上下文处理多个维度创下新高。

更值得关注的是 GDPval-AA 测试(衡量模型在 44 种职业中完成真实知识工作的能力):

  • Opus 4.7:1753 Elo,领先第二名 79 分
  • Opus 4.6:1619 Elo

同时,4.7 的幻觉率比 4.6 下降了 25 个百分点,降到 36%。代价是它更频繁地选择"不作答" -- 宁可说不知道,也不瞎编。

用户为什么炸了

但跑分是一回事,实际体验是另一回事。用户怒火集中在三个点上:

1. 代码能力断崖下滑

大量开发者反馈,从 4.6 升级到 4.7 后,之前能稳定完成的编程任务开始频繁出错。代码补全变迟钝,上下文理解退化,复杂逻辑链推理明显变弱。有用户做回归测试发现,4.7 自信地改挂了 3 个在 4.6 下能通过的测试。

2. 推理质量倒退

不是速度慢了,是思考深度出现可感知的退化。以前能一步到位的复杂问题,现在需要反复追问。

NYT Connections Extended 基准测试(940 道逻辑推理题)的数据更直观:

  • Opus 4.6 (high reasoning):94.7%
  • Opus 4.7 (high reasoning):41.0%

Anthropic 自己的 System Card 中也显示,100 万 token 上下文的 MRCR v2 测试:

  • 4.6:78.3%
  • 4.7:32.2%

3. 花更多钱,体验更差

Anthropic 没有调价,但新分词器处理相同文本时 token 用量可能达到原来的 1.0-1.35 倍。昨天花 10 美元的 prompt,今天可能要 11-13.5 美元。

迁移成本被低估

更隐蔽的破坏发生在接口层面:

  • thinking 参数直接报错:之前写 thinking={"type": "enabled", "budget_tokens": 32000} 在 4.6 上跑得好好的,换 4.7 直接返回 400 错误。需要改成 thinking={"type": "adaptive"} 加新的 effort 参数
  • thinking 内容默认隐藏:4.6 默认展示思考过程摘要,4.7 默认省略。但你仍然在为这些看不到的 thinking token 全额付费

"顶嘴"是怎么回事

另一个被广泛吐槽的变化是 4.7 变得"带攻击性"。Anthropic 官方迁移指南里有一句关键的话:

Claude Opus 4.7 会以更字面、更明确的方式理解提示词。

也就是说:4.6 会"猜你的意思",4.7 会"照你说的做"。如果你的 prompt 本来就写得含糊,4.6 可以帮你脑补,但 4.7 不会。

对于 prompt 写得精确的用户(比如 Cursor 设计师 Ryo Lu),这种精确执行正是他需要的。但对于习惯了"模糊指令 + AI 自动补全"的用户来说,这就变成了"不听话"。

你该不该升级

简单总结:

维度4.64.7
综合智能指数优秀并列全球第一
知识工作能力 (GDPval-AA)1619 Elo1753 Elo (+79)
幻觉率61%36% (-25)
逻辑推理 (NYT Connections)94.7%41.0%
代码能力稳定部分场景退步
Token 消耗基准+0~35%
Thinking 展示默认展示默认隐藏

建议:如果你是重度代码用户或依赖逻辑推理的工作流,建议先在非关键任务上测试 4.7 的表现再决定是否全面迁移。如果你主要做知识型工作、长文档处理或需要更低幻觉率,4.7 在这些维度上确实更强。

Anthropic 员工 Alex Albert 已确认发布首日遇到的部分 bug 已修复。但信任这种东西,消耗容易,重建很慢。

所有文章

作者

avatar for toolin小编
toolin小编

分类

  • AI产品
跑分确实在涨用户为什么炸了1. 代码能力断崖下滑2. 推理质量倒退3. 花更多钱,体验更差迁移成本被低估"顶嘴"是怎么回事你该不该升级

相关文章

Claude Code 从零上手:国内用户保姆级安装教程
AI教程

Claude Code 从零上手:国内用户保姆级安装教程

无需海外手机号和 Visa 卡,用国产模型也能跑 Claude Code。Mac 和 Windows 双平台完整安装流程,从安装框架到接入 GLM-5.1 全流程指引。

avatar for toolin小编
toolin小编
1天前
Claude Design 实测:一个提示词做出专业级设计
AI产品

Claude Design 实测:一个提示词做出专业级设计

Claude Design 能做网页、PPT、原型图甚至动画视频。本文整理了最全玩法和官方实用技巧,附体验地址和提示词示例。

avatar for toolin小编
toolin小编
1天前
Anthropic 负责人的 Vibe Coding 大师课
AI教程

Anthropic 负责人的 Vibe Coding 大师课

Anthropic 研究员 Erik Schluntz 分享生产环境中负责任地使用 Vibe Coding 的实战经验,涵盖 22000 行代码合并案例、叶子节点策略和进阶技巧。

avatar for toolin小编
toolin小编
1天前