GLM-5.1 高速版实测：400 TPS 不掉智商

如果你用 AI Coding 工具写代码，最让人崩溃的事之一就是等。让它改个组件转圈十几秒，重构个模块一分钟还在吐字。智谱最新推出的 GLM-5.1 高速版，实测 TPS 达到 350-400 tokens/s，代码几乎是"喷"出来的，而且生成质量没有缩水。

GLM-5.1 高速版是什么

GLM-5.1 高速版是智谱基于自研 TileRT 推理引擎推出的高速 API 版本。核心思路是把传统推理框架里零碎的算子调度、内存读写、同步等待全部干掉，编译期就把整个计算图编排成一个常驻 GPU 的 Engine Kernel。

简单说：传统方案每算一步都要"汇报一次"，TileRT 直接把整条流水线焊死在 GPU 上，中间不回头，一路算到底。所以 400 tokens/s 不是峰值跑分，是稳定可用的生产级速度。

实测对比数据

在 Claude Code 中分别配置不同模型，执行相同任务后的对比数据：

模型	TPS (tokens/s)	实际耗时	备注
GLM-5.1 高速版	300-350	2.6 秒	生成质量与标准版一致
GPT 5.5 high (Codex)	153.1	约 47 秒	与第三方基准测试吻合
DeepSeek V4 Pro	55.0	约 2.3 分钟	成本低但速度差距明显

TPS 详细数据面板

高频 AI Coding：接进 Claude Code 等工具后，代码生成速度从"等"变成"实时响应"
快速原型开发：几分钟内完成完整项目，适合 MVP 验证
批量代码任务：大规模重构、迁移等需要反复生成代码的场景

不足与限制

目前 GLM-5.1-HighSpeed 仅面向部分企业客户定向开放，个人开发者暂无法使用
实测 TPS 在 300-350 之间，与官方标称的 400 有一定差距
生成效果与标准版 GLM-5.1 基本一致，但在复杂推理场景下是否完全等价还需更多验证

模型	TPS (tokens/s)	实际耗时	备注
GLM-5.1 高速版	300-350	2.6 秒	生成质量与标准版一致
GPT 5.5 high (Codex)	153.1	约 47 秒	与第三方基准测试吻合
DeepSeek V4 Pro	55.0	约 2.3 分钟	成本低但速度差距明显

TPS 详细数据面板

高频 AI Coding：接进 Claude Code 等工具后，代码生成速度从"等"变成"实时响应"
快速原型开发：几分钟内完成完整项目，适合 MVP 验证
批量代码任务：大规模重构、迁移等需要反复生成代码的场景

不足与限制

目前 GLM-5.1-HighSpeed 仅面向部分企业客户定向开放，个人开发者暂无法使用
实测 TPS 在 300-350 之间，与官方标称的 400 有一定差距
生成效果与标准版 GLM-5.1 基本一致，但在复杂推理场景下是否完全等价还需更多验证

价格

目前为内测阶段，仅面向企业客户定向开放，具体定价尚未公布。

全部

AI教程

AI产品

AI资源

GLM-5.1 高速版实测：400 TPS 不掉智商

GLM-5.1 高速版实测：400 TPS 不掉智商

GLM-5.1 高速版是什么

实测对比数据

实际使用案例

Text-to-World 3D Demo

宠物电商网站

在 Claude Code 中配置使用

应用场景

不足与限制

价格

作者

分类

相关文章

Claude Science：科研界的 Claude Code，附免费开源平替

豆包专业版收费：三档定价拆解，到底值不值

阿里 HappyHorse 1.1：视频生成五大维度升级

GLM-5.1 高速版实测：400 TPS 不掉智商

GLM-5.1 高速版实测：400 TPS 不掉智商

GLM-5.1 高速版是什么

实测对比数据

实际使用案例

Text-to-World 3D Demo

宠物电商网站

在 Claude Code 中配置使用

应用场景

不足与限制

价格

作者

分类

相关文章

Claude Science：科研界的 Claude Code，附免费开源平替

豆包专业版收费：三档定价拆解，到底值不值

阿里 HappyHorse 1.1：视频生成五大维度升级