智谱 GLM-5.1 高速版 API 内测实测 TPS 达 350-400 tokens/s,采用 TileRT 推理引擎,在 Claude Code 中配合使用体验极佳,目前仅面向企业客户开放。


智谱 GLM-5.1 高速版 API 内测实测 TPS 达 350-400 tokens/s,采用 TileRT 推理引擎,在 Claude Code 中配合使用体验极佳,目前仅面向企业客户开放。
如果你用 AI Coding 工具写代码,最让人崩溃的事之一就是等。让它改个组件转圈十几秒,重构个模块一分钟还在吐字。智谱最新推出的 GLM-5.1 高速版,实测 TPS 达到 350-400 tokens/s,代码几乎是"喷"出来的,而且生成质量没有缩水。
GLM-5.1 高速版是智谱基于自研 TileRT 推理引擎推出的高速 API 版本。核心思路是把传统推理框架里零碎的算子调度、内存读写、同步等待全部干掉,编译期就把整个计算图编排成一个常驻 GPU 的 Engine Kernel。
简单说:传统方案每算一步都要"汇报一次",TileRT 直接把整条流水线焊死在 GPU 上,中间不回头,一路算到底。所以 400 tokens/s 不是峰值跑分,是稳定可用的生产级速度。
在 Claude Code 中分别配置不同模型,执行相同任务后的对比数据:
| 模型 | TPS (tokens/s) | 实际耗时 | 备注 |
|---|---|---|---|
| GLM-5.1 高速版 | 300-350 | 2.6 秒 | 生成质量与标准版一致 |
| GPT 5.5 high (Codex) | 153.1 | 约 47 秒 | 与第三方基准测试吻合 |
| DeepSeek V4 Pro | 55.0 | 约 2.3 分钟 | 成本低但速度差距明显 |

用一段提示词让模型从零实现一个"自然语言控制 3D 世界"的 Web 应用,GLM-5.1 高速版在 30 秒内完成,包含 React + TypeScript + React Three Fiber 的完整项目代码。
从零开发一个功能完全可用的宠物电商网站,GLM-5.1 高速版耗时 1.4 分钟(TPS 约 300),同样任务用 DeepSeek V4 Pro 花了 4.1 分钟。

GLM-5.1 高速版可以通过 API 接入 Claude Code、Hermes Agent、OpenClaw 等 AI Coding 工具。在 Claude Code 中替换模型后,所有代码生成任务的响应速度会显著提升,体感上"你还没反应过来它就干完了"。
目前为内测阶段,仅面向企业客户定向开放,具体定价尚未公布。

GitHub 15万星的Claude Code配置神器,内置38个专业智能体、156项技能、1282项安全测试,MIT协议完全开源

来自MIT和普林斯顿的开源项目,把Transformer训练中的散碎计算重写为GEMM-Epilogue模式,反向传播加速1.6-1.8倍

OpenAI Codex 团队成员公开完整工作流,涵盖长期线程管理、Heartbeats 定时任务、Goal 模式和本地知识库搭建,帮你把 Codex 从工具变成全职 AI 员工。