toolin.ai logo
toolin.ai
首页
AI工具
AI技能包
AI资讯
精选推文
AI提示词
提交AI工具提交
toolin.ai logo
toolin.ai

百万AI玩家的创作利器库,发现最佳AI工具组合,提升您的创作效率

AI工具1,179个
技能包11个
产品功能
  • AI工具
  • AI技能包
  • AI资讯
  • 精选推文
关于我们
  • 关于Toolin
  • 联系我们
  • 合作洽谈
  • 更新日志
关注我们
© 2025 toolin.ai. All rights reserved.
服务条款隐私政策

五大模型实测:Qwen3.7 Max 编程能力到底行不行

2026/05/28
·toolin小编

Qwen3.7 Max 在编程竞技榜冲到全球第二,仅次于 Claude Opus 4.7。本文用液体模拟、六边形 2048、地铁博物馆、浏览器操作系统四个任务,实测对比 Qwen3.7 Max、GPT-5.5、Gemini 3.5 Flash、DeepSeek V4、Claude Opus 4.7 的编程表现。

五大模型实测:Qwen3.7 Max 编程能力到底行不行
五大模型实测:Qwen3.7 Max 编程能力到底行不行
2026/05/28

五大模型实测:Qwen3.7 Max 编程能力到底行不行

Qwen3.7 Max 在编程竞技榜冲到全球第二,仅次于 Claude Opus 4.7。本文用液体模拟、六边形 2048、地铁博物馆、浏览器操作系统四个任务,实测对比 Qwen3.7 Max、GPT-5.5、Gemini 3.5 Flash、DeepSeek V4、Claude Opus 4.7 的编程表现。

模型获取与定价测试一:液体模拟动画测试二:六边形 2048测试三:地铁博物馆网站测试四:浏览器操作系统把 Qwen3.7 Max 接入 Codex配置步骤加持 Skill 后效果更好结论
AI教程

阿里的最新旗舰模型 Qwen3.7 Max 在编程竞技榜上拿下了第二名,超越 GPT-5.5、Gemini 3.5 Flash、DeepSeek V4 Pro,仅次于 Claude Opus 4.7。在 Terminal Bench、SWE Bench 等传统编程评测榜单上,也是国产模型第一。

排行榜数字好看,但实际好不好用?我们用五个模型、四个任务,一句话提示词实测 Vibe Coding 能力。

模型获取与定价

Qwen3.7 Max 目前在阿里云百炼平台可用,新用户有 100 万 Token 免费额度。限时五折定价:输入 6 元/百万 tokens,输出 18 元/百万 tokens。

相比 Opus 4.7 和 GPT-5.5,Qwen3.7 Max 的价格有明显优势;但跟 DeepSeek 的低价比还是贵不少。

测试一:液体模拟动画

提示词:「用 HTML+CSS+JS 做一个模拟液体在容器里晃动的动画,拖动容器可以改变倾斜角度。」

Qwen3.7 Max:顺利完成任务,还额外加了颜色自定义、摇晃、液体量调节等功能。表现扎实。

DeepSeek V4:比较简单,但没出错。

GPT-5.5:液体效果有点奇怪,波浪动画很出戏。

Gemini 3.5 Flash:瓶子会藏在控制面板背后,需要手动拖出。但自定义选项最多。

Claude Opus 4.7:瓶子过于简陋,液体晃动效果在剧烈状态下像音波跳动。

测试二:六边形 2048

提示词:「做一个可以玩的 2048,但格子是六边形的。」

这个测试考察模型能不能理解非标准网格的游戏逻辑。

Qwen3.7 Max:页面好看,能玩,但偶尔出现数字叠加位置不对的情况。

DeepSeek V4:明明是六边形,键盘控制却只有 WASD 四个方向。

Claude Opus 4.7:表现最好。真正理解了蜂巢规则,格子移动方向完全符合六边形的逻辑。

GPT-5.5:依托 Codex 能力,生成后能自己打开浏览器预览、抓取控制台信息来修复代码。但鼠标方向控制不如 Opus 4.7。

Gemini 3.5 Flash:加了大量额外内容——三种背景主题、内置 8-bit 太空音效,体验感拉满。

测试三:地铁博物馆网站

提示词:「设计一个名为地铁博物馆的主题网站,要求沉浸感强。」

本意是希望模型展示不同城市的地铁信息、Logo,以及有艺术性的整体风格。

Qwen3.7 Max:文字竖排放置像地铁列车,但整体感觉很乱。

Gemini 3.5 Flash:表现最出色。做了地铁文创、定制纪念票根生成器,可以输入名字、选择车站,实时生成复古风纪念乘车票。

GPT-5.5:网页风格不错,但信息量太少,没理解地铁博物馆应该是一个信息展示网站。

DeepSeek V4:设计了票务纪念和驾驶体验,但最终交付的成果中没有呈现这些功能。

测试四:浏览器操作系统

提示词:「用 HTML 构建一个完整的浏览器操作系统。」

Qwen3.7 Max:额外给了一张不错的桌面风景图片,但整体偏简单。

Gemini 3.5 Flash 和 GPT-5.5:并列最佳。都对整个 OS 做了详细设计,有专门的风格和完整的交互。

DeepSeek V4:最简单。

把 Qwen3.7 Max 接入 Codex

实测发现,单独在千问官网用 Qwen3.7 Max 生成的效果不如接入 Codex 等 Agent 产品后好。接入方法如下:

配置步骤

  1. 在阿里云百炼平台获取 API Key
  2. 修改 ~/.codex/config.toml 配置文件,添加模型信息
  3. 同时修改电脑环境变量(.bash_profile 或 .zshrc),写入 API Key
  4. 终端输入 codex 启动,模型会从 GPT-5.5 切换为 Custom
# 环境变量示例(添加到 .zshrc 或 .bash_profile)
export QWEN_API_KEY="your-api-key-here"

同样的方法也可以把 DeepSeek、MiniMax、Kimi 等模型接入 Codex。

Codex 配置

注意:接入后可能会遇到 stream disconnected before completion: InternalError.Algo.InvalidParameter: The "function.arguments" parameter of the code model must be in JSON format 报错。这是因为百炼的流式输出格式不是标准 OpenAI 协议,Agent 工具调用时不够稳定。遇到这种情况只能等官方修复,或重新开一个会话。

加持 Skill 后效果更好

在 Codex 中安装了前端设计 Skill(https://github.com/Leonxlnx/taste-skill)后,同样一句话提示词,Codex 会自动调用设计 Skill 来完成设计定位和构思,最后生成的效果比千问官网直接生成好上不少。

Skill 加持效果

结论

一句话总结:Qwen3.7 Max 在编程能力上确实有了很大提升,但在一句话 Vibe Coding 场景下,还不能稳定超越 GPT-5.5 和 Gemini 3.5 Flash。

不过接入 Codex 等 Agent 产品、配合 Skill 使用后,效果有质的飞跃。这也印证了一个趋势:单靠模型能力已经不够了,记忆、编排、验证、推理可持续性这些「外围能力」同样重要。

所有文章

作者

avatar for toolin小编
toolin小编

分类

  • AI教程
模型获取与定价测试一:液体模拟动画测试二:六边形 2048测试三:地铁博物馆网站测试四:浏览器操作系统把 Qwen3.7 Max 接入 Codex配置步骤加持 Skill 后效果更好结论

相关文章

腾讯「代号Craft」:用自然语言从零做游戏的 AI 平台
AI产品

腾讯「代号Craft」:用自然语言从零做游戏的 AI 平台

腾讯游戏发布的 AI 游戏创作平台,支持自然语言生成可运行游戏,覆盖 2D/3D,内置全链路 AIGC 工具和 2 万免费资产,零基础也能做出完整游戏。

avatar for toolin小编
toolin小编
1天前
ClawGym:Agent训练评测一体化开源框架
AI产品

ClawGym:Agent训练评测一体化开源框架

人大开源Claw Agent数据+训练+评测全链条框架,13.5K可执行任务,支持沙盒并行强化学习

avatar for toolin小编
toolin小编
8小时前
Codex Computer Use登陆Windows实操指南
AI教程

Codex Computer Use登陆Windows实操指南

OpenAI Codex正式支持Windows电脑操作,附完整开启步骤、限制说明和手机远程控制方法

avatar for toolin小编
toolin小编
8小时前