toolin.ai logo
toolin.ai
首页
AI工具
AI技能包
AI资讯
精选推文
AI提示词
提交AI工具提交
toolin.ai logo
toolin.ai

百万AI玩家的创作利器库,发现最佳AI工具组合,提升您的创作效率

AI工具1,295个
技能包11个
产品功能
  • AI工具
  • AI技能包
  • AI资讯
  • 精选推文
关于我们
  • 关于Toolin
  • 联系我们
  • 合作洽谈
  • 更新日志
关注我们
© 2025 toolin.ai. All rights reserved.
服务条款隐私政策

MiniCPM-o 4.5:消费级显卡跑全双工多模态AI

2026/04/30
·toolin小编

面壁智能发布 MiniCPM-o 4.5 技术报告并开放全模态全双工 API,RTX 5070 即可本地实时运行边看边说的 AI 助手

MiniCPM-o 4.5:消费级显卡跑全双工多模态AI
MiniCPM-o 4.5:消费级显卡跑全双工多模态AI
2026/04/30

MiniCPM-o 4.5:消费级显卡跑全双工多模态AI

面壁智能发布 MiniCPM-o 4.5 技术报告并开放全模态全双工 API,RTX 5070 即可本地实时运行边看边说的 AI 助手

它能做什么三种使用方式在线体验(无需注册)API 调用(免费开放)本地部署(RTX 5070 即可运行)技术核心:Omni-Flow适用场景
AI产品

9B 参数的开源模型,能在一张消费级显卡上实现"边看、边听、边说、还能主动提醒"的全双工 AI 助手。MiniCPM-o 4.5 自 2026 年 2 月发布以来在 Hugging Face 上下载量已突破 25 万,现在技术报告正式发布,API、端侧安装包和 Demo 代码全部开放。

它能做什么

MiniCPM-o 4.5 是目前业界首个端到端全双工全模态大模型。全双工意味着你可以随时打断它、插话,不需要等它说完再开口。它能:

  • 实时语音对话(可设定音色和语速)
  • 实时视觉理解(通过摄像头看你的屏幕或桌面)
  • 主动提醒(观察到你忘记某件事时主动提醒)
  • 全程本地运行,无需联网,数据不出机器

三种使用方式

在线体验(无需注册)

手机端推荐访问:https://minicpmo45.modelbest.cn/mobile/

电脑端推荐访问:https://minicpmo45.modelbest.cn/

Demo 展示了三种交互模式:传统轮次交互、语音双工交互、视频双工交互。所有配置(包括 Prompt 和参考音频)都已开放,你可以自定义体验。

API 调用(免费开放)

MiniCPM-o 4.5 的 API 支持全模态全双工实时交互,全双工模式下无需 VAD(Voice Activity Detection)机制控制对话轮次,便于开发者基于它构建应用。

API 目前免费开放,文档地址:https://minicpmo45.modelbest.cn/docs

本地部署(RTX 5070 即可运行)

模型已基于 llama.cpp 完成量化和推理优化,最低 12GB 显存的 RTX 5070 即可流畅运行全双工模式(RTF 0.4)。

桌面软件 Comni 集成了模型下载、环境安装和 Demo 运行能力,提供 Windows / macOS 版本,一键安装。

Demo 的全栈代码也已开源:

  • GitHub 仓库:https://github.com/OpenBMB/MiniCPM-o-Demo

技术核心:Omni-Flow

技术报告首次公开了 Omni-Flow 流式全模态框架。核心思路是把语音、视觉、文本的输入输出统一到一条流式处理管线中,避免传统方案中各模态之间的串行等待。

关键数据:

  • 参数量:9B(端侧可部署级别)
  • 全双工延迟:RTF 0.4(实时率因子,低于 1 即表示快于实时)
  • 最低显存:12GB(RTX 5070)

技术报告 PDF:https://github.com/OpenBMB/MiniCPM-o/blob/main/docs/MiniCPM\_o\_45\_technical\_report.pdf

适用场景

  • 开发者:需要快速搭建带语音和视觉能力的 AI 助手原型
  • 隐私敏感场景:医疗、金融等需要数据不出本地的应用
  • 个人用户:想在电脑上拥有一个随时可用的本地 AI 助手
  • 教育研究:学习全双工多模态模型的实现方式
所有文章

作者

avatar for toolin小编
toolin小编

分类

  • AI产品
它能做什么三种使用方式在线体验(无需注册)API 调用(免费开放)本地部署(RTX 5070 即可运行)技术核心:Omni-Flow适用场景

相关文章

Claude Design 大更新:设计系统一键导入,代码双向同步
AI产品

Claude Design 大更新:设计系统一键导入,代码双向同步

Anthropic 推出 Claude Design 重大更新,支持设计系统导入、/design-sync 和 /design 代码双向同步及9大平台导出。

avatar for toolin小编
toolin小编
1天前
AI版支付宝内测体验:一句话点麦当劳、自动收能量
AI产品

AI版支付宝内测体验:一句话点麦当劳、自动收能量

AI版支付宝开启内测,引入智能助手阿宝,支持语音指令操作小程序,附邀请码获取方式和使用体验。

avatar for toolin小编
toolin小编
1天前
Kickart 3.0:火山引擎的对话式广告视频创作平台
AI产品

Kickart 3.0:火山引擎的对话式广告视频创作平台

火山引擎Kickart 3.0上线,支持对话式视频生成、爆款裂变、抖音电商合规预审,接入Seedance 2.0 mini,帮助商家一站式完成营销视频创作全流程。

avatar for toolin小编
toolin小编
2天前