小米MiMo-V2.5-Pro UltraSpeed在通用8卡GPU上实现万亿参数模型1000 tokens/s输出,是Pro满血版而非降智Flash版,API已上线可申请体验。


小米MiMo-V2.5-Pro UltraSpeed在通用8卡GPU上实现万亿参数模型1000 tokens/s输出,是Pro满血版而非降智Flash版,API已上线可申请体验。
小米MiMo团队与推理系统团队TileRT联合宣布,MiMo-V2.5-Pro的UltraSpeed模式实现了万亿参数(1T)旗舰模型输出速度首次突破1000 tokens/s。更关键的是,这不是降智的Flash版本,而是Pro满血版。
这意味着在保持顶级智能水平的前提下,速度提升了约10倍。
以一个复杂可视化大屏生成任务为例:
在实测中,峰值速度甚至达到了1426 tokens/s,32秒内输出了25624个Token,生成了1000行代码。10秒就能生成一个贪吃蛇小游戏,1分钟能复刻一个macOS系统界面。
与Cerebras晶圆级集成或Groq纯片上SRAM定制芯片等专用硬件路线不同,小米选择了在通用GPU上实现这一速度,仅用一个标准的8卡通用GPU节点。
核心技术包含三个部分:
1. FP4量化:大幅瘦身不丢精度
2. DFlash投机解码:一口气确认多段文本
3. TileRT定制编译内核
API已同步上线,采用限时体验价:
速度提升不只是"更快",而是解锁了新的使用模式:
提示: 当前高接受率仍主要集中在Coding等结构化任务,通用对话场景尚存优化空间。推理资源较为紧张,大规模商用仍需时间。

美团旗下GN06团队发布AI浏览器Tabbit 1.0,基础功能永久免费,专业版9.9元/周,支持多模型同时运行、脚本妙招和Agent任务管理。

Meshy发布全球首个3D创作AI Agent,通过多轮对话完成从概念探索到模型导出的完整3D创作流程,支持风格统一、批量生成和多格式导出。

来自Anthropic官方的Skill编写经验总结:精简上下文、积累踩坑清单、脚本化稳定环节,让你的AI协作效率翻倍。