Nemotron 3 Nano Omni：英伟达开源全模态模型

英伟达推出Nemotron 3 Nano Omni，一个在单一模型体系内融合文本、视觉、语音三大模态的开源推理模型。它的核心卖点是：吞吐量达到同类开放多模态模型的9倍，而且完全免费。如果你需要一个能同时处理视频、音频、文档、图片的轻量级模型，这个值得试一试。

它能做什么

Nemotron 3 Nano Omni可以处理以下输入类型：

文本、图像、音频、视频
文档、图表、图形界面

模型以文本形式输出。它可以根据不同任务与模态动态激活专家网络（MoE架构），在保证高吞吐的同时实现强多模态感知。

核心亮点

吞吐量是同类9倍

这得益于混合型MoE核心架构，创新性地将Mamba层与Transformer层深度融合。Mamba层负责提升序列处理效率与内存利用率，Transformer层保障精准的推理计算。整体内存和计算效率最高提升4倍。

在视频推理场景中，与替代的开放式全向模型相比，有效系统容量提高约9.2倍。在多文档推理中，提高约7.4倍。

基准测试成绩亮眼

文档智能榜单（MMlongbench-Doc、OCRBenchV2）占据前五
视频与音频理解任务（DailyOmni、VoiceBench）拿下第一
超过Qwen3-Omni-30B-A3B-Thinking和Gemini 2.5 Flash

OCRBenchV2排行榜

实测效果

根据海外用户实测：

视频内容理解：上传黄仁勋3分钟演讲视频，几秒内完成画面与语音的联合理解，准确概括核心观点，能指出具体语境中的关键信息。
持续记忆：在已有视频上下文的基础上追问具体细节，模型能快速定位相关片段并给出细致回答。
技术文档解析：输入模型技术文档，能在同一推理框架下解析混合专家架构、数据与训练流程等复杂技术细节。

怎么用

免费在线体验：

OpenRouter（免费）：openrouter.ai/nvidia/nemotron-3-nano-omni-30b-a3b-reasoning:free
英伟达官方：build.nvidia.com/nvidia/nemotron-3-nano-omni-30b-a3b-reasoning

开源地址：

模型权重和数据集：nvda.ws/420h6mR

部署方式：

支持本地系统、数据中心和云环境部署，以满足监管、主权或数据本地化要求。

独特优势

目前市场上暂无竞品同时具备以下全部特性：

单模型统一视觉、音频、文本多模态感知
混合专家高能效适配边缘部署
开源权重
完全商用授权

对比来看：谷歌端侧模型Gemini Nano未开源，Meta Llama多模态版本无法在统一架构内整合音频处理能力。Nemotron 3 Nano Omni填补了这个空白。

适合谁

需要全模态能力的开发者：一个模型同时处理视频、音频、文档、图片
边缘部署场景：MoE架构让模型在资源受限环境下也能高效运行
数据本地化需求：支持本地部署，数据不出环境
文档智能应用：OCR和文档理解能力处于行业前列

它能做什么

Nemotron 3 Nano Omni可以处理以下输入类型：

文本、图像、音频、视频
文档、图表、图形界面

模型以文本形式输出。它可以根据不同任务与模态动态激活专家网络（MoE架构），在保证高吞吐的同时实现强多模态感知。

核心亮点

吞吐量是同类9倍

在视频推理场景中，与替代的开放式全向模型相比，有效系统容量提高约9.2倍。在多文档推理中，提高约7.4倍。

基准测试成绩亮眼

文档智能榜单（MMlongbench-Doc、OCRBenchV2）占据前五
视频与音频理解任务（DailyOmni、VoiceBench）拿下第一
超过Qwen3-Omni-30B-A3B-Thinking和Gemini 2.5 Flash

OCRBenchV2排行榜

实测效果

根据海外用户实测：

视频内容理解：上传黄仁勋3分钟演讲视频，几秒内完成画面与语音的联合理解，准确概括核心观点，能指出具体语境中的关键信息。
持续记忆：在已有视频上下文的基础上追问具体细节，模型能快速定位相关片段并给出细致回答。
技术文档解析：输入模型技术文档，能在同一推理框架下解析混合专家架构、数据与训练流程等复杂技术细节。

怎么用

免费在线体验：

OpenRouter（免费）：openrouter.ai/nvidia/nemotron-3-nano-omni-30b-a3b-reasoning:free
英伟达官方：build.nvidia.com/nvidia/nemotron-3-nano-omni-30b-a3b-reasoning

开源地址：

模型权重和数据集：nvda.ws/420h6mR

部署方式：

支持本地系统、数据中心和云环境部署，以满足监管、主权或数据本地化要求。

独特优势

目前市场上暂无竞品同时具备以下全部特性：

单模型统一视觉、音频、文本多模态感知
混合专家高能效适配边缘部署
开源权重
完全商用授权

对比来看：谷歌端侧模型Gemini Nano未开源，Meta Llama多模态版本无法在统一架构内整合音频处理能力。Nemotron 3 Nano Omni填补了这个空白。

适合谁

需要全模态能力的开发者：一个模型同时处理视频、音频、文档、图片
边缘部署场景：MoE架构让模型在资源受限环境下也能高效运行
数据本地化需求：支持本地部署，数据不出环境
文档智能应用：OCR和文档理解能力处于行业前列

全部

AI教程

AI产品

AI资源

Nemotron 3 Nano Omni：英伟达开源全模态模型

Nemotron 3 Nano Omni：英伟达开源全模态模型

它能做什么

核心亮点

实测效果

怎么用

独特优势

适合谁

作者

分类

相关文章

Neat.Skill：让AI Agent越用越聪明的开源工具

小米MiMo-V2.5系列全面开源，MIT协议可商用

商汤SenseNova U1：最强开源多模态生图模型

Nemotron 3 Nano Omni：英伟达开源全模态模型

Nemotron 3 Nano Omni：英伟达开源全模态模型

它能做什么

核心亮点

实测效果

怎么用

独特优势

适合谁

作者

分类

相关文章

Neat.Skill：让AI Agent越用越聪明的开源工具

小米MiMo-V2.5系列全面开源，MIT协议可商用

商汤SenseNova U1：最强开源多模态生图模型