Claude Opus 4.7 实测：跑分第一，但用户口碑两极分化

Claude Opus 4.7 上线两天，AI 社区就被撕裂了。一边是 Artificial Analysis 给它打了 57 分，和 GPT-5.4、Gemini 3.1 Pro 并列全球第一；另一边是 Reddit 上"Opus 4.7 是严重倒退"的帖子冲上 3000 赞，用户集体抱怨更贵、更难用、更爱顶嘴。

同一个模型，有人看到 AGI 的影子，有人觉得工作流全炸了。这篇文章帮你拆清楚：Opus 4.7 到底升级了什么，又搞砸了什么。

跑分确实在涨

先看硬数据。Artificial Analysis 的 Intelligence Index 给 Opus 4.7 打了 57 分，数学推理、多语言理解、长上下文处理多个维度创下新高。

更值得关注的是 GDPval-AA 测试（衡量模型在 44 种职业中完成真实知识工作的能力）：

Opus 4.7：1753 Elo，领先第二名 79 分
Opus 4.6：1619 Elo

同时，4.7 的幻觉率比 4.6 下降了 25 个百分点，降到 36%。代价是它更频繁地选择"不作答" -- 宁可说不知道，也不瞎编。

用户为什么炸了

但跑分是一回事，实际体验是另一回事。用户怒火集中在三个点上：

1. 代码能力断崖下滑

大量开发者反馈，从 4.6 升级到 4.7 后，之前能稳定完成的编程任务开始频繁出错。代码补全变迟钝，上下文理解退化，复杂逻辑链推理明显变弱。有用户做回归测试发现，4.7 自信地改挂了 3 个在 4.6 下能通过的测试。

2. 推理质量倒退

不是速度慢了，是思考深度出现可感知的退化。以前能一步到位的复杂问题，现在需要反复追问。

NYT Connections Extended 基准测试（940 道逻辑推理题）的数据更直观：

Opus 4.6 (high reasoning)：94.7%
Opus 4.7 (high reasoning)：41.0%

Anthropic 自己的 System Card 中也显示，100 万 token 上下文的 MRCR v2 测试：

4.6：78.3%
4.7：32.2%

3. 花更多钱，体验更差

Anthropic 没有调价，但新分词器处理相同文本时 token 用量可能达到原来的 1.0-1.35 倍。昨天花 10 美元的 prompt，今天可能要 11-13.5 美元。

迁移成本被低估

更隐蔽的破坏发生在接口层面：

thinking 参数直接报错：之前写 thinking={"type": "enabled", "budget_tokens": 32000} 在 4.6 上跑得好好的，换 4.7 直接返回 400 错误。需要改成 thinking={"type": "adaptive"} 加新的 effort 参数
thinking 内容默认隐藏：4.6 默认展示思考过程摘要，4.7 默认省略。但你仍然在为这些看不到的 thinking token 全额付费

"顶嘴"是怎么回事

另一个被广泛吐槽的变化是 4.7 变得"带攻击性"。Anthropic 官方迁移指南里有一句关键的话：

Claude Opus 4.7 会以更字面、更明确的方式理解提示词。

也就是说：4.6 会"猜你的意思"，4.7 会"照你说的做"。如果你的 prompt 本来就写得含糊，4.6 可以帮你脑补，但 4.7 不会。

对于 prompt 写得精确的用户（比如 Cursor 设计师 Ryo Lu），这种精确执行正是他需要的。但对于习惯了"模糊指令 + AI 自动补全"的用户来说，这就变成了"不听话"。

你该不该升级

简单总结：

维度	4.6	4.7
综合智能指数	优秀	并列全球第一
知识工作能力 (GDPval-AA)	1619 Elo	1753 Elo (+79)
幻觉率	61%	36% (-25)
逻辑推理 (NYT Connections)	94.7%	41.0%
代码能力	稳定	部分场景退步
Token 消耗	基准	+0~35%
Thinking 展示	默认展示	默认隐藏

建议：如果你是重度代码用户或依赖逻辑推理的工作流，建议先在非关键任务上测试 4.7 的表现再决定是否全面迁移。如果你主要做知识型工作、长文档处理或需要更低幻觉率，4.7 在这些维度上确实更强。

Anthropic 员工 Alex Albert 已确认发布首日遇到的部分 bug 已修复。但信任这种东西，消耗容易，重建很慢。

同一个模型，有人看到 AGI 的影子，有人觉得工作流全炸了。这篇文章帮你拆清楚：Opus 4.7 到底升级了什么，又搞砸了什么。

跑分确实在涨

先看硬数据。Artificial Analysis 的 Intelligence Index 给 Opus 4.7 打了 57 分，数学推理、多语言理解、长上下文处理多个维度创下新高。

更值得关注的是 GDPval-AA 测试（衡量模型在 44 种职业中完成真实知识工作的能力）：

Opus 4.7：1753 Elo，领先第二名 79 分
Opus 4.6：1619 Elo

同时，4.7 的幻觉率比 4.6 下降了 25 个百分点，降到 36%。代价是它更频繁地选择"不作答" -- 宁可说不知道，也不瞎编。

Opus 4.6 (high reasoning)：94.7%
Opus 4.7 (high reasoning)：41.0%

Anthropic 自己的 System Card 中也显示，100 万 token 上下文的 MRCR v2 测试：

4.6：78.3%
4.7：32.2%

3. 花更多钱，体验更差

Anthropic 没有调价，但新分词器处理相同文本时 token 用量可能达到原来的 1.0-1.35 倍。昨天花 10 美元的 prompt，今天可能要 11-13.5 美元。

迁移成本被低估

更隐蔽的破坏发生在接口层面：

thinking 参数直接报错：之前写 thinking={"type": "enabled", "budget_tokens": 32000} 在 4.6 上跑得好好的，换 4.7 直接返回 400 错误。需要改成 thinking={"type": "adaptive"} 加新的 effort 参数
thinking 内容默认隐藏：4.6 默认展示思考过程摘要，4.7 默认省略。但你仍然在为这些看不到的 thinking token 全额付费

"顶嘴"是怎么回事

另一个被广泛吐槽的变化是 4.7 变得"带攻击性"。Anthropic 官方迁移指南里有一句关键的话：

Claude Opus 4.7 会以更字面、更明确的方式理解提示词。

也就是说：4.6 会"猜你的意思"，4.7 会"照你说的做"。如果你的 prompt 本来就写得含糊，4.6 可以帮你脑补，但 4.7 不会。

你该不该升级

简单总结：

维度	4.6	4.7
综合智能指数	优秀	并列全球第一
知识工作能力 (GDPval-AA)	1619 Elo	1753 Elo (+79)
幻觉率	61%	36% (-25)
逻辑推理 (NYT Connections)	94.7%	41.0%
代码能力	稳定	部分场景退步
Token 消耗	基准	+0~35%
Thinking 展示	默认展示	默认隐藏

Anthropic 员工 Alex Albert 已确认发布首日遇到的部分 bug 已修复。但信任这种东西，消耗容易，重建很慢。

全部

AI教程

AI产品

AI资源

Claude Opus 4.7 实测：跑分第一，但用户口碑两极分化

Claude Opus 4.7 实测：跑分第一，但用户口碑两极分化

跑分确实在涨

用户为什么炸了

1. 代码能力断崖下滑

2. 推理质量倒退

3. 花更多钱，体验更差

迁移成本被低估

"顶嘴"是怎么回事

你该不该升级

作者

分类

相关文章

JoyAI-Echo：开源5分钟长视频生成框架

OpenSquilla：给Agent加上token省钱中间层

Gemma 4 12B：16G笔记本跑多模态AI模型

Claude Opus 4.7 实测：跑分第一，但用户口碑两极分化

Claude Opus 4.7 实测：跑分第一，但用户口碑两极分化

跑分确实在涨

用户为什么炸了

1. 代码能力断崖下滑

2. 推理质量倒退

3. 花更多钱，体验更差

迁移成本被低估

"顶嘴"是怎么回事

你该不该升级

作者

分类

相关文章

JoyAI-Echo：开源5分钟长视频生成框架

OpenSquilla：给Agent加上token省钱中间层

Gemma 4 12B：16G笔记本跑多模态AI模型