toolin.ai logo
toolin.ai
首页
AI工具
AI技能包
AI资讯
精选推文
AI提示词
提交AI工具提交
toolin.ai logo
toolin.ai

百万AI玩家的创作利器库,发现最佳AI工具组合,提升您的创作效率

AI工具1,209个
技能包11个
产品功能
  • AI工具
  • AI技能包
  • AI资讯
  • 精选推文
关于我们
  • 关于Toolin
  • 联系我们
  • 合作洽谈
  • 更新日志
关注我们
© 2025 toolin.ai. All rights reserved.
服务条款隐私政策

Claude Opus 4.7 实测:跑分第一,但用户口碑两极分化

2026/04/18
·toolin小编

Claude Opus 4.7 上线 48 小时,Artificial Analysis 评测并列全球第一,但代码能力退步、token 消耗涨 35%、接口直接报错,社区口碑严重分裂。

Claude Opus 4.7 实测:跑分第一,但用户口碑两极分化
Claude Opus 4.7 实测:跑分第一,但用户口碑两极分化
2026/04/18

Claude Opus 4.7 实测:跑分第一,但用户口碑两极分化

Claude Opus 4.7 上线 48 小时,Artificial Analysis 评测并列全球第一,但代码能力退步、token 消耗涨 35%、接口直接报错,社区口碑严重分裂。

跑分确实在涨用户为什么炸了1. 代码能力断崖下滑2. 推理质量倒退3. 花更多钱,体验更差迁移成本被低估"顶嘴"是怎么回事你该不该升级
AI产品

Claude Opus 4.7 上线两天,AI 社区就被撕裂了。一边是 Artificial Analysis 给它打了 57 分,和 GPT-5.4、Gemini 3.1 Pro 并列全球第一;另一边是 Reddit 上"Opus 4.7 是严重倒退"的帖子冲上 3000 赞,用户集体抱怨更贵、更难用、更爱顶嘴。

同一个模型,有人看到 AGI 的影子,有人觉得工作流全炸了。这篇文章帮你拆清楚:Opus 4.7 到底升级了什么,又搞砸了什么。

跑分确实在涨

先看硬数据。Artificial Analysis 的 Intelligence Index 给 Opus 4.7 打了 57 分,数学推理、多语言理解、长上下文处理多个维度创下新高。

更值得关注的是 GDPval-AA 测试(衡量模型在 44 种职业中完成真实知识工作的能力):

  • Opus 4.7:1753 Elo,领先第二名 79 分
  • Opus 4.6:1619 Elo

同时,4.7 的幻觉率比 4.6 下降了 25 个百分点,降到 36%。代价是它更频繁地选择"不作答" -- 宁可说不知道,也不瞎编。

用户为什么炸了

但跑分是一回事,实际体验是另一回事。用户怒火集中在三个点上:

1. 代码能力断崖下滑

大量开发者反馈,从 4.6 升级到 4.7 后,之前能稳定完成的编程任务开始频繁出错。代码补全变迟钝,上下文理解退化,复杂逻辑链推理明显变弱。有用户做回归测试发现,4.7 自信地改挂了 3 个在 4.6 下能通过的测试。

2. 推理质量倒退

不是速度慢了,是思考深度出现可感知的退化。以前能一步到位的复杂问题,现在需要反复追问。

NYT Connections Extended 基准测试(940 道逻辑推理题)的数据更直观:

  • Opus 4.6 (high reasoning):94.7%
  • Opus 4.7 (high reasoning):41.0%

Anthropic 自己的 System Card 中也显示,100 万 token 上下文的 MRCR v2 测试:

  • 4.6:78.3%
  • 4.7:32.2%

3. 花更多钱,体验更差

Anthropic 没有调价,但新分词器处理相同文本时 token 用量可能达到原来的 1.0-1.35 倍。昨天花 10 美元的 prompt,今天可能要 11-13.5 美元。

迁移成本被低估

更隐蔽的破坏发生在接口层面:

  • thinking 参数直接报错:之前写 thinking={"type": "enabled", "budget_tokens": 32000} 在 4.6 上跑得好好的,换 4.7 直接返回 400 错误。需要改成 thinking={"type": "adaptive"} 加新的 effort 参数
  • thinking 内容默认隐藏:4.6 默认展示思考过程摘要,4.7 默认省略。但你仍然在为这些看不到的 thinking token 全额付费

"顶嘴"是怎么回事

另一个被广泛吐槽的变化是 4.7 变得"带攻击性"。Anthropic 官方迁移指南里有一句关键的话:

Claude Opus 4.7 会以更字面、更明确的方式理解提示词。

也就是说:4.6 会"猜你的意思",4.7 会"照你说的做"。如果你的 prompt 本来就写得含糊,4.6 可以帮你脑补,但 4.7 不会。

对于 prompt 写得精确的用户(比如 Cursor 设计师 Ryo Lu),这种精确执行正是他需要的。但对于习惯了"模糊指令 + AI 自动补全"的用户来说,这就变成了"不听话"。

你该不该升级

简单总结:

维度4.64.7
综合智能指数优秀并列全球第一
知识工作能力 (GDPval-AA)1619 Elo1753 Elo (+79)
幻觉率61%36% (-25)
逻辑推理 (NYT Connections)94.7%41.0%
代码能力稳定部分场景退步
Token 消耗基准+0~35%
Thinking 展示默认展示默认隐藏

建议:如果你是重度代码用户或依赖逻辑推理的工作流,建议先在非关键任务上测试 4.7 的表现再决定是否全面迁移。如果你主要做知识型工作、长文档处理或需要更低幻觉率,4.7 在这些维度上确实更强。

Anthropic 员工 Alex Albert 已确认发布首日遇到的部分 bug 已修复。但信任这种东西,消耗容易,重建很慢。

所有文章

作者

avatar for toolin小编
toolin小编

分类

  • AI产品
跑分确实在涨用户为什么炸了1. 代码能力断崖下滑2. 推理质量倒退3. 花更多钱,体验更差迁移成本被低估"顶嘴"是怎么回事你该不该升级

相关文章

OpenSquilla Meta Skill:把一整套工作流装进一个 Skill
AI产品

OpenSquilla Meta Skill:把一整套工作流装进一个 Skill

OpenSquilla 推出 Meta Skill 功能,一个 Skill 内嵌多个子 Skill,能端到端打通长程工作流,还能省 60-80% 的 Token 成本

avatar for toolin小编
toolin小编
1天前
Hermes Desktop:开源智能体走上电脑桌面
AI产品

Hermes Desktop:开源智能体走上电脑桌面

Nous Research推出桌面端开源智能体Hermes Desktop,覆盖macOS/Windows/Linux,复用CLI智能体的全部技能和记忆,点鼠标就能用。

avatar for toolin小编
toolin小编
11小时前
Step 3.7 Flash:409 tok/s的Agent效率模型
AI产品

Step 3.7 Flash:409 tok/s的Agent效率模型

阶跃星辰新模型输出速度达409 tokens/s,单任务成本为Claude Opus 4.6的1/9,编程能力达其97%,专为Agent高频调用场景设计。

avatar for toolin小编
toolin小编
11小时前