五大模型实测：Qwen3.7 Max 编程能力到底行不行

阿里的最新旗舰模型 Qwen3.7 Max 在编程竞技榜上拿下了第二名，超越 GPT-5.5、Gemini 3.5 Flash、DeepSeek V4 Pro，仅次于 Claude Opus 4.7。在 Terminal Bench、SWE Bench 等传统编程评测榜单上，也是国产模型第一。

排行榜数字好看，但实际好不好用？我们用五个模型、四个任务，一句话提示词实测 Vibe Coding 能力。

模型获取与定价

Qwen3.7 Max 目前在阿里云百炼平台可用，新用户有 100 万 Token 免费额度。限时五折定价：输入 6 元/百万 tokens，输出 18 元/百万 tokens。

相比 Opus 4.7 和 GPT-5.5，Qwen3.7 Max 的价格有明显优势；但跟 DeepSeek 的低价比还是贵不少。

测试一：液体模拟动画

提示词：「用 HTML+CSS+JS 做一个模拟液体在容器里晃动的动画，拖动容器可以改变倾斜角度。」

Qwen3.7 Max：顺利完成任务，还额外加了颜色自定义、摇晃、液体量调节等功能。表现扎实。

DeepSeek V4：比较简单，但没出错。

GPT-5.5：液体效果有点奇怪，波浪动画很出戏。

Gemini 3.5 Flash：瓶子会藏在控制面板背后，需要手动拖出。但自定义选项最多。

Claude Opus 4.7：瓶子过于简陋，液体晃动效果在剧烈状态下像音波跳动。

测试二：六边形 2048

提示词：「做一个可以玩的 2048，但格子是六边形的。」

这个测试考察模型能不能理解非标准网格的游戏逻辑。

Qwen3.7 Max：页面好看，能玩，但偶尔出现数字叠加位置不对的情况。

DeepSeek V4：明明是六边形，键盘控制却只有 WASD 四个方向。

Claude Opus 4.7：表现最好。真正理解了蜂巢规则，格子移动方向完全符合六边形的逻辑。

GPT-5.5：依托 Codex 能力，生成后能自己打开浏览器预览、抓取控制台信息来修复代码。但鼠标方向控制不如 Opus 4.7。

Gemini 3.5 Flash：加了大量额外内容——三种背景主题、内置 8-bit 太空音效，体验感拉满。

测试三：地铁博物馆网站

提示词：「设计一个名为地铁博物馆的主题网站，要求沉浸感强。」

本意是希望模型展示不同城市的地铁信息、Logo，以及有艺术性的整体风格。

Qwen3.7 Max：文字竖排放置像地铁列车，但整体感觉很乱。

Gemini 3.5 Flash：表现最出色。做了地铁文创、定制纪念票根生成器，可以输入名字、选择车站，实时生成复古风纪念乘车票。

GPT-5.5：网页风格不错，但信息量太少，没理解地铁博物馆应该是一个信息展示网站。

DeepSeek V4：设计了票务纪念和驾驶体验，但最终交付的成果中没有呈现这些功能。

测试四：浏览器操作系统

提示词：「用 HTML 构建一个完整的浏览器操作系统。」

Qwen3.7 Max：额外给了一张不错的桌面风景图片，但整体偏简单。

Gemini 3.5 Flash 和 GPT-5.5：并列最佳。都对整个 OS 做了详细设计，有专门的风格和完整的交互。

DeepSeek V4：最简单。

把 Qwen3.7 Max 接入 Codex

实测发现，单独在千问官网用 Qwen3.7 Max 生成的效果不如接入 Codex 等 Agent 产品后好。接入方法如下：

配置步骤

在阿里云百炼平台获取 API Key
修改 ~/.codex/config.toml 配置文件，添加模型信息
同时修改电脑环境变量（.bash_profile 或 .zshrc），写入 API Key
终端输入 codex 启动，模型会从 GPT-5.5 切换为 Custom

# 环境变量示例（添加到 .zshrc 或 .bash_profile）
export QWEN_API_KEY="your-api-key-here"

同样的方法也可以把 DeepSeek、MiniMax、Kimi 等模型接入 Codex。

Codex 配置

注意：接入后可能会遇到 stream disconnected before completion: InternalError.Algo.InvalidParameter: The "function.arguments" parameter of the code model must be in JSON format 报错。这是因为百炼的流式输出格式不是标准 OpenAI 协议，Agent 工具调用时不够稳定。遇到这种情况只能等官方修复，或重新开一个会话。

加持 Skill 后效果更好

在 Codex 中安装了前端设计 Skill（https://github.com/Leonxlnx/taste-skill）后，同样一句话提示词，Codex 会自动调用设计 Skill 来完成设计定位和构思，最后生成的效果比千问官网直接生成好上不少。

Skill 加持效果

结论

一句话总结：Qwen3.7 Max 在编程能力上确实有了很大提升，但在一句话 Vibe Coding 场景下，还不能稳定超越 GPT-5.5 和 Gemini 3.5 Flash。

不过接入 Codex 等 Agent 产品、配合 Skill 使用后，效果有质的飞跃。这也印证了一个趋势：单靠模型能力已经不够了，记忆、编排、验证、推理可持续性这些「外围能力」同样重要。

排行榜数字好看，但实际好不好用？我们用五个模型、四个任务，一句话提示词实测 Vibe Coding 能力。

模型获取与定价

Qwen3.7 Max 目前在阿里云百炼平台可用，新用户有 100 万 Token 免费额度。限时五折定价：输入 6 元/百万 tokens，输出 18 元/百万 tokens。

相比 Opus 4.7 和 GPT-5.5，Qwen3.7 Max 的价格有明显优势；但跟 DeepSeek 的低价比还是贵不少。

测试一：液体模拟动画

提示词：「用 HTML+CSS+JS 做一个模拟液体在容器里晃动的动画，拖动容器可以改变倾斜角度。」

Qwen3.7 Max：顺利完成任务，还额外加了颜色自定义、摇晃、液体量调节等功能。表现扎实。

DeepSeek V4：比较简单，但没出错。

GPT-5.5：液体效果有点奇怪，波浪动画很出戏。

Gemini 3.5 Flash：瓶子会藏在控制面板背后，需要手动拖出。但自定义选项最多。

Claude Opus 4.7：瓶子过于简陋，液体晃动效果在剧烈状态下像音波跳动。

测试二：六边形 2048

提示词：「做一个可以玩的 2048，但格子是六边形的。」

这个测试考察模型能不能理解非标准网格的游戏逻辑。

Qwen3.7 Max：页面好看，能玩，但偶尔出现数字叠加位置不对的情况。

DeepSeek V4：明明是六边形，键盘控制却只有 WASD 四个方向。

Claude Opus 4.7：表现最好。真正理解了蜂巢规则，格子移动方向完全符合六边形的逻辑。

GPT-5.5：依托 Codex 能力，生成后能自己打开浏览器预览、抓取控制台信息来修复代码。但鼠标方向控制不如 Opus 4.7。

Gemini 3.5 Flash：加了大量额外内容——三种背景主题、内置 8-bit 太空音效，体验感拉满。

测试三：地铁博物馆网站

提示词：「设计一个名为地铁博物馆的主题网站，要求沉浸感强。」

本意是希望模型展示不同城市的地铁信息、Logo，以及有艺术性的整体风格。

Qwen3.7 Max：文字竖排放置像地铁列车，但整体感觉很乱。

Gemini 3.5 Flash：表现最出色。做了地铁文创、定制纪念票根生成器，可以输入名字、选择车站，实时生成复古风纪念乘车票。

GPT-5.5：网页风格不错，但信息量太少，没理解地铁博物馆应该是一个信息展示网站。

DeepSeek V4：设计了票务纪念和驾驶体验，但最终交付的成果中没有呈现这些功能。

测试四：浏览器操作系统

提示词：「用 HTML 构建一个完整的浏览器操作系统。」

Qwen3.7 Max：额外给了一张不错的桌面风景图片，但整体偏简单。

Gemini 3.5 Flash 和 GPT-5.5：并列最佳。都对整个 OS 做了详细设计，有专门的风格和完整的交互。

DeepSeek V4：最简单。

把 Qwen3.7 Max 接入 Codex

实测发现，单独在千问官网用 Qwen3.7 Max 生成的效果不如接入 Codex 等 Agent 产品后好。接入方法如下：

配置步骤

在阿里云百炼平台获取 API Key
修改 ~/.codex/config.toml 配置文件，添加模型信息
同时修改电脑环境变量（.bash_profile 或 .zshrc），写入 API Key
终端输入 codex 启动，模型会从 GPT-5.5 切换为 Custom

# 环境变量示例（添加到 .zshrc 或 .bash_profile）
export QWEN_API_KEY="your-api-key-here"

同样的方法也可以把 DeepSeek、MiniMax、Kimi 等模型接入 Codex。

Codex 配置

注意：接入后可能会遇到 stream disconnected before completion: InternalError.Algo.InvalidParameter: The "function.arguments" parameter of the code model must be in JSON format 报错。这是因为百炼的流式输出格式不是标准 OpenAI 协议，Agent 工具调用时不够稳定。遇到这种情况只能等官方修复，或重新开一个会话。

加持 Skill 后效果更好

Skill 加持效果

结论

一句话总结：Qwen3.7 Max 在编程能力上确实有了很大提升，但在一句话 Vibe Coding 场景下，还不能稳定超越 GPT-5.5 和 Gemini 3.5 Flash。

全部

AI教程

AI产品

AI资源

五大模型实测：Qwen3.7 Max 编程能力到底行不行

五大模型实测：Qwen3.7 Max 编程能力到底行不行

模型获取与定价

测试一：液体模拟动画

测试二：六边形 2048

测试三：地铁博物馆网站

测试四：浏览器操作系统

把 Qwen3.7 Max 接入 Codex

配置步骤

加持 Skill 后效果更好

结论

作者

分类

相关文章

Bun 用 Claude 把底层从 Zig 重写为 Rust：一次百万行级别的 Agentic 工程实战

Kimi K3 上手：2.8T 参数开源旗舰，半天复刻付费录屏工具

RynnWorld-Teleop：达摩院开源数字遥操作，无需真机即可采集机器人训练数据

五大模型实测：Qwen3.7 Max 编程能力到底行不行

五大模型实测：Qwen3.7 Max 编程能力到底行不行

模型获取与定价

测试一：液体模拟动画

测试二：六边形 2048

测试三：地铁博物馆网站

测试四：浏览器操作系统

把 Qwen3.7 Max 接入 Codex

配置步骤

加持 Skill 后效果更好

结论

作者

分类

相关文章

Bun 用 Claude 把底层从 Zig 重写为 Rust：一次百万行级别的 Agentic 工程实战

Kimi K3 上手：2.8T 参数开源旗舰，半天复刻付费录屏工具

RynnWorld-Teleop：达摩院开源数字遥操作，无需真机即可采集机器人训练数据