小米MiMo UltraSpeed：万亿参数模型跑出1000 tokens/s

小米MiMo团队与推理系统团队TileRT联合宣布，MiMo-V2.5-Pro的UltraSpeed模式实现了万亿参数（1T）旗舰模型输出速度首次突破1000 tokens/s。更关键的是，这不是降智的Flash版本，而是Pro满血版。

这意味着在保持顶级智能水平的前提下，速度提升了约10倍。

实际速度表现

以一个复杂可视化大屏生成任务为例：

UltraSpeed版：13秒完成
标准版：6分15秒
同等效果下最高提速28倍

在实测中，峰值速度甚至达到了1426 tokens/s，32秒内输出了25624个Token，生成了1000行代码。10秒就能生成一个贪吃蛇小游戏，1分钟能复刻一个macOS系统界面。

技术实现

与Cerebras晶圆级集成或Groq纯片上SRAM定制芯片等专用硬件路线不同，小米选择了在通用GPU上实现这一速度，仅用一个标准的8卡通用GPU节点。

核心技术包含三个部分：

1. FP4量化：大幅瘦身不丢精度

只对MoE Expert进行FP4量化，其他模块保留原有精度
通过FP4量化感知训练（QAT），模型整体能力与原模型基本持平
大幅缩减模型体积并减少访存开销

2. DFlash投机解码：一口气确认多段文本

采用块级Masked并行预测方法，解除Draft自回归的串行约束
Coding场景中平均接受长度达到6.30，每轮验证8个Draft token中可接受6-7个
Draft模型采用滑动窗口注意力（SWA），单次预测算力为常数级

3. TileRT定制编译内核

常驻内核引擎：计算流水线常驻在GPU内部持续流转
异构流水线协作：Tile级别将通信、搬运和张量计算精细拆解
微秒级软硬件收敛：针对FP4混合量化与DFlash量身定制

价格与API

API已同步上线，采用限时体验价：

定价为MiMo-V2.5-Pro的3倍，提供约10倍的输出速度提升
按MiMo-V2.5-Pro定价推算，UltraSpeed约每百万tokens输出18元
仅支持API体验，暂不支持Token Plan
6月9日至6月23日限时开放申请，通过审核的用户可获得两周限时免费的Chat体验

实际场景价值

速度提升不只是"更快"，而是解锁了新的使用模式：

Agent场景：如果一个任务预估一分钟完成，你会盯着它直到结束。如果需要五分钟，你可能会去做别的事，回来时已经浪费了时间。10倍速度直接改变了工作节奏
Sub-Agent并发：同时启动一两百个Sub-Agent，速度提高10倍，在模型能力没有衰减的前提下，体验差距非常明显
实时决策闭环：万亿模型可以接入高频量化交易信号生成、瞬时反欺诈风控拦截等对时间极度敏感的场景

申请入口

API申请：https://platform.xiaomimimo.com/ultraspeed
Chat体验：https://ultraspeed.xiaomimimo.com
开源权重（FP4-DFlash）：https://huggingface.co/XiaomiMiMo/MiMo-V2.5-Pro-FP4-DFlash

提示: 当前高接受率仍主要集中在Coding等结构化任务，通用对话场景尚存优化空间。推理资源较为紧张，大规模商用仍需时间。

这意味着在保持顶级智能水平的前提下，速度提升了约10倍。

实际速度表现

以一个复杂可视化大屏生成任务为例：

UltraSpeed版：13秒完成
标准版：6分15秒
同等效果下最高提速28倍

技术实现

与Cerebras晶圆级集成或Groq纯片上SRAM定制芯片等专用硬件路线不同，小米选择了在通用GPU上实现这一速度，仅用一个标准的8卡通用GPU节点。

核心技术包含三个部分：

1. FP4量化：大幅瘦身不丢精度

只对MoE Expert进行FP4量化，其他模块保留原有精度
通过FP4量化感知训练（QAT），模型整体能力与原模型基本持平
大幅缩减模型体积并减少访存开销

2. DFlash投机解码：一口气确认多段文本

采用块级Masked并行预测方法，解除Draft自回归的串行约束
Coding场景中平均接受长度达到6.30，每轮验证8个Draft token中可接受6-7个
Draft模型采用滑动窗口注意力（SWA），单次预测算力为常数级

3. TileRT定制编译内核

常驻内核引擎：计算流水线常驻在GPU内部持续流转
异构流水线协作：Tile级别将通信、搬运和张量计算精细拆解
微秒级软硬件收敛：针对FP4混合量化与DFlash量身定制

价格与API

API已同步上线，采用限时体验价：

定价为MiMo-V2.5-Pro的3倍，提供约10倍的输出速度提升
按MiMo-V2.5-Pro定价推算，UltraSpeed约每百万tokens输出18元
仅支持API体验，暂不支持Token Plan
6月9日至6月23日限时开放申请，通过审核的用户可获得两周限时免费的Chat体验

实际场景价值

速度提升不只是"更快"，而是解锁了新的使用模式：

Agent场景：如果一个任务预估一分钟完成，你会盯着它直到结束。如果需要五分钟，你可能会去做别的事，回来时已经浪费了时间。10倍速度直接改变了工作节奏
Sub-Agent并发：同时启动一两百个Sub-Agent，速度提高10倍，在模型能力没有衰减的前提下，体验差距非常明显
实时决策闭环：万亿模型可以接入高频量化交易信号生成、瞬时反欺诈风控拦截等对时间极度敏感的场景

申请入口

API申请：https://platform.xiaomimimo.com/ultraspeed
Chat体验：https://ultraspeed.xiaomimimo.com
开源权重（FP4-DFlash）：https://huggingface.co/XiaomiMiMo/MiMo-V2.5-Pro-FP4-DFlash

提示: 当前高接受率仍主要集中在Coding等结构化任务，通用对话场景尚存优化空间。推理资源较为紧张，大规模商用仍需时间。

全部

AI教程

AI产品

AI资源

小米MiMo UltraSpeed：万亿参数模型跑出1000 tokens/s

小米MiMo UltraSpeed：万亿参数模型跑出1000 tokens/s

实际速度表现

技术实现

价格与API

实际场景价值

申请入口

作者

分类

相关文章

Codex 5.5 + GPT-5.5：OpenAI编程工具大升级

DeepSeek-TUI：终端里的AI编程Agent

GPT-image-2 生图转PSD实操指南

小米MiMo UltraSpeed：万亿参数模型跑出1000 tokens/s

小米MiMo UltraSpeed：万亿参数模型跑出1000 tokens/s

实际速度表现

技术实现

价格与API

实际场景价值

申请入口

作者

分类

相关文章

Codex 5.5 + GPT-5.5：OpenAI编程工具大升级

DeepSeek-TUI：终端里的AI编程Agent

GPT-image-2 生图转PSD实操指南