toolin.ai logo
toolin.ai
首页
AI工具
AI技能包
AI资讯
精选推文
AI提示词
提交AI工具提交
toolin.ai logo
toolin.ai

百万AI玩家的创作利器库,发现最佳AI工具组合,提升您的创作效率

AI工具1,273个
技能包11个
产品功能
  • AI工具
  • AI技能包
  • AI资讯
  • 精选推文
关于我们
  • 关于Toolin
  • 联系我们
  • 合作洽谈
  • 更新日志
关注我们
© 2025 toolin.ai. All rights reserved.
服务条款隐私政策

小米MiMo UltraSpeed:万亿参数模型跑出1000 tokens/s

2026/06/09
·toolin小编

小米MiMo-V2.5-Pro UltraSpeed在通用8卡GPU上实现万亿参数模型1000 tokens/s输出,是Pro满血版而非降智Flash版,API已上线可申请体验。

小米MiMo UltraSpeed:万亿参数模型跑出1000 tokens/s
小米MiMo UltraSpeed:万亿参数模型跑出1000 tokens/s
2026/06/09

小米MiMo UltraSpeed:万亿参数模型跑出1000 tokens/s

小米MiMo-V2.5-Pro UltraSpeed在通用8卡GPU上实现万亿参数模型1000 tokens/s输出,是Pro满血版而非降智Flash版,API已上线可申请体验。

实际速度表现技术实现价格与API实际场景价值申请入口
AI产品

小米MiMo团队与推理系统团队TileRT联合宣布,MiMo-V2.5-Pro的UltraSpeed模式实现了万亿参数(1T)旗舰模型输出速度首次突破1000 tokens/s。更关键的是,这不是降智的Flash版本,而是Pro满血版。

这意味着在保持顶级智能水平的前提下,速度提升了约10倍。

实际速度表现

以一个复杂可视化大屏生成任务为例:

  • UltraSpeed版:13秒完成
  • 标准版:6分15秒
  • 同等效果下最高提速28倍

在实测中,峰值速度甚至达到了1426 tokens/s,32秒内输出了25624个Token,生成了1000行代码。10秒就能生成一个贪吃蛇小游戏,1分钟能复刻一个macOS系统界面。

技术实现

与Cerebras晶圆级集成或Groq纯片上SRAM定制芯片等专用硬件路线不同,小米选择了在通用GPU上实现这一速度,仅用一个标准的8卡通用GPU节点。

核心技术包含三个部分:

1. FP4量化:大幅瘦身不丢精度

  • 只对MoE Expert进行FP4量化,其他模块保留原有精度
  • 通过FP4量化感知训练(QAT),模型整体能力与原模型基本持平
  • 大幅缩减模型体积并减少访存开销

2. DFlash投机解码:一口气确认多段文本

  • 采用块级Masked并行预测方法,解除Draft自回归的串行约束
  • Coding场景中平均接受长度达到6.30,每轮验证8个Draft token中可接受6-7个
  • Draft模型采用滑动窗口注意力(SWA),单次预测算力为常数级

3. TileRT定制编译内核

  • 常驻内核引擎:计算流水线常驻在GPU内部持续流转
  • 异构流水线协作:Tile级别将通信、搬运和张量计算精细拆解
  • 微秒级软硬件收敛:针对FP4混合量化与DFlash量身定制

价格与API

API已同步上线,采用限时体验价:

  • 定价为MiMo-V2.5-Pro的3倍,提供约10倍的输出速度提升
  • 按MiMo-V2.5-Pro定价推算,UltraSpeed约每百万tokens输出18元
  • 仅支持API体验,暂不支持Token Plan
  • 6月9日至6月23日限时开放申请,通过审核的用户可获得两周限时免费的Chat体验

实际场景价值

速度提升不只是"更快",而是解锁了新的使用模式:

  • Agent场景:如果一个任务预估一分钟完成,你会盯着它直到结束。如果需要五分钟,你可能会去做别的事,回来时已经浪费了时间。10倍速度直接改变了工作节奏
  • Sub-Agent并发:同时启动一两百个Sub-Agent,速度提高10倍,在模型能力没有衰减的前提下,体验差距非常明显
  • 实时决策闭环:万亿模型可以接入高频量化交易信号生成、瞬时反欺诈风控拦截等对时间极度敏感的场景

申请入口

  • API申请:https://platform.xiaomimimo.com/ultraspeed
  • Chat体验:https://ultraspeed.xiaomimimo.com
  • 开源权重(FP4-DFlash):https://huggingface.co/XiaomiMiMo/MiMo-V2.5-Pro-FP4-DFlash

提示: 当前高接受率仍主要集中在Coding等结构化任务,通用对话场景尚存优化空间。推理资源较为紧张,大规模商用仍需时间。

所有文章

作者

avatar for toolin小编
toolin小编

分类

  • AI产品
实际速度表现技术实现价格与API实际场景价值申请入口

相关文章

Tabbit AI浏览器:Agent时代的浏览器长什么样
AI产品

Tabbit AI浏览器:Agent时代的浏览器长什么样

美团旗下GN06团队发布AI浏览器Tabbit 1.0,基础功能永久免费,专业版9.9元/周,支持多模型同时运行、脚本妙招和Agent任务管理。

avatar for toolin小编
toolin小编
1天前
Meshy 3D Agent:用对话完成3D创作全流程
AI产品

Meshy 3D Agent:用对话完成3D创作全流程

Meshy发布全球首个3D创作AI Agent,通过多轮对话完成从概念探索到模型导出的完整3D创作流程,支持风格统一、批量生成和多格式导出。

avatar for toolin小编
toolin小编
1天前
写好Claude Skill的7条实战经验
AI教程

写好Claude Skill的7条实战经验

来自Anthropic官方的Skill编写经验总结:精简上下文、积累踩坑清单、脚本化稳定环节,让你的AI协作效率翻倍。

avatar for toolin小编
toolin小编
1天前