toolin.ai logo
toolin.ai
首页
AI工具
AI技能包
AI资讯
精选推文
AI提示词
提交AI工具提交
toolin.ai logo
toolin.ai

百万AI玩家的创作利器库,发现最佳AI工具组合,提升您的创作效率

AI工具1,018个
技能包11个
产品功能
  • AI工具
  • AI技能包
  • AI资讯
  • 精选推文
关于我们
  • 关于Toolin
  • 联系我们
  • 合作洽谈
  • 更新日志
关注我们
© 2025 toolin.ai. All rights reserved.
服务条款隐私政策

MiniCPM-o 4.5:消费级显卡跑全双工全模态AI助手

2026/04/29
·toolin小编

面壁智能开源9B参数全双工全模态模型,12GB显存即可本地运行,支持边看边听边说,附在线Demo和一键安装包

MiniCPM-o 4.5:消费级显卡跑全双工全模态AI助手
MiniCPM-o 4.5:消费级显卡跑全双工全模态AI助手
2026/04/29

MiniCPM-o 4.5:消费级显卡跑全双工全模态AI助手

面壁智能开源9B参数全双工全模态模型,12GB显存即可本地运行,支持边看边听边说,附在线Demo和一键安装包

MiniCPM-o 4.5 是什么如何体验方式一:在线 Demo(零门槛)方式二:一键安装包 Comni(推荐)方式三:免费 API方式四:开源代码自行部署核心技术:Omni-Flow 流式全模态框架性能表现应用场景相关链接
AI产品

不用联网、仅用一张消费级显卡,就能在个人电脑上拥有一个「边看、边听、边说、还能主动提醒」的类人 AI 助手。这不是概念,MiniCPM-o 4.5 已经把它变成了可以在你电脑上直接跑起来的东西。

MiniCPM-o 4.5 是面壁智能联合清华大学发布的业界首个端到端全双工全模态大模型,仅 9B 参数规模,却实现了多模态感知 + 流式语音交互的完整闭环。模型在 Hugging Face 上的下载量已突破 25 万+。

MiniCPM-o 4.5 是什么

简单说,它是一个可以同时「看视频、听声音、说话回复、主动提醒」的 AI 助手模型。跟传统大模型最大的区别是:

  • 全双工交互:不用等它说完你再说话,你可以随时打断、插话,它能实时感知
  • 全模态:视频、音频、文本输入 + 文本、语音输出,一个模型全搞定
  • 断网可用:全部本地运行,数据不出你的电脑

如何体验

方式一:在线 Demo(零门槛)

无需注册、无需下载,直接打开浏览器体验:

  • 电脑端:https://minicpmo45.modelbest.cn/
  • 手机端(推荐):https://minicpmo45.modelbest.cn/mobile/

Demo 展示了三种交互模式:传统轮次对话、语音双工交互、视频双工交互,并可完整调节 Prompt、参考音频等参数。

方式二:一键安装包 Comni(推荐)

面壁提供了 Windows/macOS 桌面安装包,集成模型下载、环境安装和 Demo 运行能力。

Windows 版本:

  • GitHub:https://github.com/tc-mb/llama.cpp-omni/releases/latest/download/Comni-Setup-win64.exe
  • ModelScope:https://modelscope.cn/models/OpenBMB/MiniCPM-o-4_5-gguf/resolve/master/app/Comni-Windows-x64.exe
  • 硬件要求:12GB+ 显存 GPU(RTX 4080/4090/5070/5080/5090)

macOS 版本:

  • GitHub:https://github.com/tc-mb/llama.cpp-omni/releases/latest/download/Comni-macOS-arm64.dmg
  • ModelScope:https://modelscope.cn/models/OpenBMB/MiniCPM-o-4_5-gguf/resolve/master/app/Comni-macOS-arm64.dmg
  • 硬件要求:M1-M5 Max/M5 Pro,建议 16GB 以上内存

方式三:免费 API

API 端点:https://api.modelbest.cn/minicpmo45/v1/

目前免费开放,支持全模态全双工实时交互,无需 VAD 机制控制对话轮次。API 文档:https://api.modelbest.cn/minicpmo45/docs

方式四:开源代码自行部署

Demo 前后端代码已完全开源:https://github.com/OpenBMB/MiniCPM-o-Demo

Linux 用户可克隆代码仓并部署完整的 Demo 服务,这是首批可本地部署的全双工全模态交互演示项目之一。

核心技术:Omni-Flow 流式全模态框架

MiniCPM-o 4.5 的核心突破是 Omni-Flow 流式全模态框架。它创造了一个共享的毫秒级时间轴,把视觉、音频、语言等所有信息流都精准对齐到时间片上。模型以每秒一次的高频持续刷新环境认知,自主决定何时说话、何时提醒。

模型架构由四大模块组成:

  • 视觉编码器(0.4B):SigLIP-ViT,负责「看」
  • 音频编码器(0.3B):Whisper-Medium,负责「听」
  • LLM 基座(8B):Qwen3-8B,负责「思考」
  • 语音 Token 解码器(~0.3B):轻量级 Llama 架构,负责将文本转化为语音

性能表现

不要被 9B 参数骗了,MiniCPM-o 4.5 在多个维度表现亮眼:

  • 视觉能力:OpenCompass 综合得分 77.6,MMBench 英文得分 87.6,与 Gemini 2.5 Flash 相当
  • 全模态交互:在 Daily-Omni、Video-Holmes 等评测中全面超越 Gemini 2.5 Flash 和 Qwen3-Omni
  • 推理效率:INT4 量化版仅需 12GB 显存,解码速度达 212 tokens/s,比 Qwen3 快 40%+
  • 语音生成:中英文语音生成质量和情感表现力均优于 CosyVoice2

应用场景

MiniCPM-o 4.5 的全双工能力解锁了一系列传统轮次对话模型无法胜任的场景:

  • 主动式伴侣:在你烹饪、修理或运动时,实时指导和提醒
  • 无障碍辅助:成为视障人士的「眼睛」,持续观察环境并主动播报关键信息
  • 智能座舱:持续监控路况和驾驶员状态,主动提示安全预警
  • 具身智能:作为机器人的「大脑」,持续感知动态环境并自主决策

相关链接

  • 技术报告:https://github.com/OpenBMB/MiniCPM-o/blob/main/docs/MiniCPM_o_45_technical_report.pdf
  • Hugging Face:https://huggingface.co/openbmb/MiniCPM-o-4_5
  • ModelScope:https://www.modelscope.cn/models/OpenBMB/MiniCPM-o-4_5
  • Demo 仓库:https://github.com/OpenBMB/MiniCPM-o-Demo
所有文章

作者

avatar for toolin小编
toolin小编

分类

  • AI产品
MiniCPM-o 4.5 是什么如何体验方式一:在线 Demo(零门槛)方式二:一键安装包 Comni(推荐)方式三:免费 API方式四:开源代码自行部署核心技术:Omni-Flow 流式全模态框架性能表现应用场景相关链接

相关文章

商汤SenseNova U1:最强开源多模态生图模型
AI产品

商汤SenseNova U1:最强开源多模态生图模型

8B参数开源多模态模型,砍掉视觉编码器和VAE,支持信息图生成、连续图文交错输出,本地可部署,性能直逼GPT-Image-2

avatar for toolin小编
toolin小编
1天前
腾讯混元离线翻译:0.4G模型手机端跑33种语言
AI产品

腾讯混元离线翻译:0.4G模型手机端跑33种语言

腾讯混元开源翻译模型Hy-MT1.5,极致压缩至440MB,支持33种语言离线互译,翻译质量超越谷歌翻译,手机端即可运行

avatar for toolin小编
toolin小编
1天前
Nemotron 3 Nano Omni:英伟达开源全模态模型
AI产品

Nemotron 3 Nano Omni:英伟达开源全模态模型

英伟达推出开源多模态推理模型,融合文本、视觉、语音,吞吐量达同类9倍,免费可用,支持本地至云端全场景部署

avatar for toolin小编
toolin小编
1天前