面壁智能发布 MiniCPM-o 4.5 技术报告并开放全模态全双工 API,RTX 5070 即可本地实时运行边看边说的 AI 助手


面壁智能发布 MiniCPM-o 4.5 技术报告并开放全模态全双工 API,RTX 5070 即可本地实时运行边看边说的 AI 助手
9B 参数的开源模型,能在一张消费级显卡上实现"边看、边听、边说、还能主动提醒"的全双工 AI 助手。MiniCPM-o 4.5 自 2026 年 2 月发布以来在 Hugging Face 上下载量已突破 25 万,现在技术报告正式发布,API、端侧安装包和 Demo 代码全部开放。
MiniCPM-o 4.5 是目前业界首个端到端全双工全模态大模型。全双工意味着你可以随时打断它、插话,不需要等它说完再开口。它能:
手机端推荐访问:https://minicpmo45.modelbest.cn/mobile/
电脑端推荐访问:https://minicpmo45.modelbest.cn/
Demo 展示了三种交互模式:传统轮次交互、语音双工交互、视频双工交互。所有配置(包括 Prompt 和参考音频)都已开放,你可以自定义体验。
MiniCPM-o 4.5 的 API 支持全模态全双工实时交互,全双工模式下无需 VAD(Voice Activity Detection)机制控制对话轮次,便于开发者基于它构建应用。
API 目前免费开放,文档地址:https://minicpmo45.modelbest.cn/docs
模型已基于 llama.cpp 完成量化和推理优化,最低 12GB 显存的 RTX 5070 即可流畅运行全双工模式(RTF 0.4)。
桌面软件 Comni 集成了模型下载、环境安装和 Demo 运行能力,提供 Windows / macOS 版本,一键安装。
Demo 的全栈代码也已开源:
技术报告首次公开了 Omni-Flow 流式全模态框架。核心思路是把语音、视觉、文本的输入输出统一到一条流式处理管线中,避免传统方案中各模态之间的串行等待。
关键数据:
技术报告 PDF:https://github.com/OpenBMB/MiniCPM-o/blob/main/docs/MiniCPM\_o\_45\_technical\_report.pdf

Anthropic 推出 Claude Design 重大更新,支持设计系统导入、/design-sync 和 /design 代码双向同步及9大平台导出。

AI版支付宝开启内测,引入智能助手阿宝,支持语音指令操作小程序,附邀请码获取方式和使用体验。

火山引擎Kickart 3.0上线,支持对话式视频生成、爆款裂变、抖音电商合规预审,接入Seedance 2.0 mini,帮助商家一站式完成营销视频创作全流程。