面壁智能发布 MiniCPM-o 4.5 技术报告并开放全模态全双工 API,RTX 5070 即可本地实时运行边看边说的 AI 助手


面壁智能发布 MiniCPM-o 4.5 技术报告并开放全模态全双工 API,RTX 5070 即可本地实时运行边看边说的 AI 助手
9B 参数的开源模型,能在一张消费级显卡上实现"边看、边听、边说、还能主动提醒"的全双工 AI 助手。MiniCPM-o 4.5 自 2026 年 2 月发布以来在 Hugging Face 上下载量已突破 25 万,现在技术报告正式发布,API、端侧安装包和 Demo 代码全部开放。
MiniCPM-o 4.5 是目前业界首个端到端全双工全模态大模型。全双工意味着你可以随时打断它、插话,不需要等它说完再开口。它能:
手机端推荐访问:https://minicpmo45.modelbest.cn/mobile/
电脑端推荐访问:https://minicpmo45.modelbest.cn/
Demo 展示了三种交互模式:传统轮次交互、语音双工交互、视频双工交互。所有配置(包括 Prompt 和参考音频)都已开放,你可以自定义体验。
MiniCPM-o 4.5 的 API 支持全模态全双工实时交互,全双工模式下无需 VAD(Voice Activity Detection)机制控制对话轮次,便于开发者基于它构建应用。
API 目前免费开放,文档地址:https://minicpmo45.modelbest.cn/docs
模型已基于 llama.cpp 完成量化和推理优化,最低 12GB 显存的 RTX 5070 即可流畅运行全双工模式(RTF 0.4)。
桌面软件 Comni 集成了模型下载、环境安装和 Demo 运行能力,提供 Windows / macOS 版本,一键安装。
Demo 的全栈代码也已开源:
技术报告首次公开了 Omni-Flow 流式全模态框架。核心思路是把语音、视觉、文本的输入输出统一到一条流式处理管线中,避免传统方案中各模态之间的串行等待。
关键数据:
技术报告 PDF:https://github.com/OpenBMB/MiniCPM-o/blob/main/docs/MiniCPM\_o\_45\_technical\_report.pdf

面壁智能开源9B参数全双工全模态模型,12GB显存即可本地运行,支持边看边听边说,附在线Demo和一键安装包

OpenClaw v2026.4.25版本接入13个语音提供商、OTEL全链路可观测性和插件冷启动优化,让Agent运行透明可控

商汤发布 SenseNova U1 系列多模态模型,原生统一架构实现连续图文创作,免费开源,可作为 GPT Image 2 的国产替代方案