小米MiMo API永久降价99%，开发者怎么薅

5月27日，小米宣布 MiMo-V2.5 系列 API 永久降价，最高降幅 99%，同时 Token Plan 套餐容量提升 5-8 倍。这是继 DeepSeek 之后又一家选择"永久降价"的大模型厂商，两个国产模型的价格几乎直接对标。

降价细节

本次调价覆盖 MiMo-V2.5 和 MiMo-V2.5-Pro 两个版本，新价格已于北京时间 5 月 27 日 0 点全球同步生效。最关键的变化：不再区分上下文窗口长度，256K 和 1M 统一同一价格。

API 价格对比

计费项	MiMo-V2.5	MiMo-V2.5-Pro	DeepSeek-V4-Pro
输入（缓存命中）	0.02 元/百万 tokens	0.025 元/百万 tokens	0.025 元/百万 tokens
输入（缓存未命中）	1 元/百万 tokens	3 元/百万 tokens	3 元/百万 tokens
输出	2 元/百万 tokens	6 元/百万 tokens	6 元/百万 tokens

💡 提示: 99% 的降幅主要体现在"缓存命中"场景。高重复上下文、高频 Agent、多轮代码任务和批量推理任务最能吃到低价红利。缓存命中率低的应用，实际成本不会触及最低点。

Token Plan 套餐变化

定价不变，Credits 大幅提升：

套餐	月费	原 Credits	新 Credits	提升倍数
Lite	39 元	0.6 亿	41 亿	~68x
Standard	99 元	2 亿	110 亿	~55x
Pro	329 元	7 亿	380 亿	~54x
Max	659 元	16 亿	820 亿	~51x

按 95% 以上缓存命中场景测算，39 元的 Lite 套餐用 MiMo-V2.5 可以跑到 5 亿 Token 以上；659 元的 Max 套餐突破 100 亿 Token。即使在更贵的 MiMo-V2.5-Pro 上，Lite 套餐也能达到 1.9 亿 Token 以上。

所有仍在有效期内的 Token Plan 用户，Credits 已于 5 月 27 日 0 点全部重置，自动切换至新计费规则。

为什么能降价

小米公告解释了背后的推理优化方案：

基于 SGLang HiCache 完整支持 SWA（滑动窗口注意力），将 KV Cache 在 GPU 显存、CPU 内存、SSD 间的数据搬运量降至优化前的约 1/7
可缓存 Token 数量提升至约 5 倍
优化了专家并行方案和输入长度分桶策略，提升集群输入吞吐能力

价格战背后，本质是推理系统与基础设施能力的竞争。

MiMo-V2.5 系列模型定位

模型	定位	适用场景
MiMo-V2.5-Pro	高性能复杂推理	企业级智能体开发、深度业务分析
MiMo-V2.5	轻量化通用	中小开发者日常调用、轻量化应用
MiMo-V2.5-TTS	语音合成	音频生态（限时免费接入）

MiMo-V2.5-Pro 在 Artificial Analysis 综合智能榜位列全球开源模型并列第一，Agent 指数同样位列全球开源模型并列第一。已以 MIT 协议开源，支持商用部署与二次训练。

对开发者意味着什么

Agent 和代码助手成本骤降：Agent 场景下缓存命中率高，MiMo 的低价策略天然适合高频多轮任务
与 DeepSeek 价格基本持平：两个国产模型形成了价格锚点，开发者可以根据模型能力灵活切换
海外用户同样受益：价格全球同步，海外社区反馈积极——"MiMo 比 Opus 低 3 分，价格便宜百倍以上"

怎么用上

API 调用：访问小米开放平台获取 API Key，按新价格直接调用
Token Plan：39 元起，适合有稳定用量需求的开发者
开源部署：MiMo-V2.5 系列以 MIT 协议开源，可自行部署

降价细节

API 价格对比

计费项	MiMo-V2.5	MiMo-V2.5-Pro	DeepSeek-V4-Pro
输入（缓存命中）	0.02 元/百万 tokens	0.025 元/百万 tokens	0.025 元/百万 tokens
输入（缓存未命中）	1 元/百万 tokens	3 元/百万 tokens	3 元/百万 tokens
输出	2 元/百万 tokens	6 元/百万 tokens	6 元/百万 tokens

💡 提示: 99% 的降幅主要体现在"缓存命中"场景。高重复上下文、高频 Agent、多轮代码任务和批量推理任务最能吃到低价红利。缓存命中率低的应用，实际成本不会触及最低点。

Token Plan 套餐变化

定价不变，Credits 大幅提升：

套餐	月费	原 Credits	新 Credits	提升倍数
Lite	39 元	0.6 亿	41 亿	~68x
Standard	99 元	2 亿	110 亿	~55x
Pro	329 元	7 亿	380 亿	~54x
Max	659 元	16 亿	820 亿	~51x

所有仍在有效期内的 Token Plan 用户，Credits 已于 5 月 27 日 0 点全部重置，自动切换至新计费规则。

为什么能降价

小米公告解释了背后的推理优化方案：

基于 SGLang HiCache 完整支持 SWA（滑动窗口注意力），将 KV Cache 在 GPU 显存、CPU 内存、SSD 间的数据搬运量降至优化前的约 1/7
可缓存 Token 数量提升至约 5 倍
优化了专家并行方案和输入长度分桶策略，提升集群输入吞吐能力

价格战背后，本质是推理系统与基础设施能力的竞争。

MiMo-V2.5 系列模型定位

模型	定位	适用场景
MiMo-V2.5-Pro	高性能复杂推理	企业级智能体开发、深度业务分析
MiMo-V2.5	轻量化通用	中小开发者日常调用、轻量化应用
MiMo-V2.5-TTS	语音合成	音频生态（限时免费接入）

对开发者意味着什么

Agent 和代码助手成本骤降：Agent 场景下缓存命中率高，MiMo 的低价策略天然适合高频多轮任务
与 DeepSeek 价格基本持平：两个国产模型形成了价格锚点，开发者可以根据模型能力灵活切换
海外用户同样受益：价格全球同步，海外社区反馈积极——"MiMo 比 Opus 低 3 分，价格便宜百倍以上"

怎么用上

API 调用：访问小米开放平台获取 API Key，按新价格直接调用
Token Plan：39 元起，适合有稳定用量需求的开发者
开源部署：MiMo-V2.5 系列以 MIT 协议开源，可自行部署

全部

AI教程

AI产品

AI资源

小米MiMo API永久降价99%，开发者怎么薅

小米MiMo API永久降价99%，开发者怎么薅

降价细节

API 价格对比

Token Plan 套餐变化

为什么能降价

MiMo-V2.5 系列模型定位

对开发者意味着什么

怎么用上

作者

分类

相关文章

歌歌AI（GoGo）：国内首个纯中文 AI 音乐模型实操解析

Claude Sonnet 5 发布：性能逼近 Opus 4.8，价格只要 60%

登顶 HF 榜首的 MemSlides：会记住你偏好的 PPT Agent

小米MiMo API永久降价99%，开发者怎么薅

小米MiMo API永久降价99%，开发者怎么薅

降价细节

API 价格对比

Token Plan 套餐变化

为什么能降价

MiMo-V2.5 系列模型定位

对开发者意味着什么

怎么用上

作者

分类

相关文章

歌歌AI（GoGo）：国内首个纯中文 AI 音乐模型实操解析

Claude Sonnet 5 发布：性能逼近 Opus 4.8，价格只要 60%

登顶 HF 榜首的 MemSlides：会记住你偏好的 PPT Agent