商汤SenseNova U1：最强开源多模态生图模型

商汤SenseNova U1是本周开源社区最值得关注的多模态模型。它只有8B参数，却做到了开源同量级的SOTA水平，部分指标接近闭源商业模型。更重要的是，它采用全新的NEO-Unify架构，直接砍掉了视觉编码器（VE）和变分自编码器（VAE），让模型原生统一"看图"和"生图"两件事。对于需要本地部署、批量出图、或把多模态能力嵌入自己产品的开发者来说，U1提供了一条GPT-Image-2无法提供的路。

核心能力：不只能画图，还能边想边画

SenseNova U1有两个版本：8B的dense版本和A3B的MoE版本，都已开源（Apache 2.0）。

它的核心亮点有三个：

信息图生成：给一句简单的提示词（比如"手冲咖啡步骤图"），十几秒出一张2K高清信息图。文字密度高、排版精准，这历来是生图模型的硬骨头。
连续图文交错输出：一次推理中同时输出多张图和多段文字，且保持风格、人物、逻辑的一致性。这是GPT-Image-2、Seedream等闭源模型都做不到的。
本地部署：8B参数对硬件要求不高，性能稍好的本地机器就能跑，支持vLLM和sglang推理框架。

U1信息图生成示例

U1在信息图生成基准上的得分与Qwen-Image 2.0、Seedream 4.5等大模型基本持平，但延迟显著更低。

图文交错：真正不一样的能力

大多数生图模型是"一次prompt出一张图"的单点能力。U1的图文交错让它能在一次输出里完成"概念 -> 概念图 -> 解释段落 -> 对比图 -> 总结"这样的混排。

几个典型的应用场景：

建筑设计：上传需求后，U1自动生成多个视角的连贯建筑图（外部全景、低角度仰视、高空俯瞰、室内框景），每张图配一段设计说明。
绘本/漫画：给定主题，自动生成分镜图和配文，人物和风格在多张图之间保持一致。
书籍配图：一章里需要"概念 -> 概念图 -> 解释段落 -> 对比图 -> 总结"这样的混排，U1一次就能出整页。

U1图文交错 · 悬崖图书馆设计

为什么一个8B模型能做到这些

答案在架构层。传统多模态模型用"拼积木"的方式：视觉编码器负责"看"，VAE负责"画"，中间接一个LLM负责"想"。三个模块各自独立训练，理解和生成走的是两条路。

NEO-Unify架构把VE和VAE都扔了。模型直接读原始像素、直接输出像素，在同一个骨干网络里让文本和视觉端到端统一训练。这让它不再做"翻译"，而是真正"理解了再画"。

已知的边界

U1目前还有一些局限：

少量错字：比如"Karpathy"会写成"Karpthy"，"蒸馏"的"馏"会写成"漓"。可以通过prompt工程绕开（用"卡帕西"替代Karpathy）。
复杂图表不绝对稳定：偶尔会出现排版偏差。
单张极致质量仍不及GPT-Image-2：但胜在速度、成本和可控性。

怎么上手

开源资源：

开源代码：github.com/OpenSenseNova/SenseNova-U1
HuggingFace：huggingface.co/collections/sensenova/sensenova-u1
Agent技能库：github.com/OpenSenseNova/SenseNova-Skills

部署要求：

模型8B参数，支持vLLM和sglang
性能稍好的本地机器即可运行，不需要专业显卡
对硬件要求不算高，FP16下约需16GB显存

适合谁用

自媒体和独立创作者：每天要出文章配图、信息图、海报，U1的速度让"试10个版本选1个"变成可行的工作流。
有数据敏感性的行业：医疗、金融、法务，本地部署确保数据不上云。
Agent长链路场景：一个任务需要生成10-50张图（教程、报告、绘本），跑本地几乎零边际成本。

核心能力：不只能画图，还能边想边画

SenseNova U1有两个版本：8B的dense版本和A3B的MoE版本，都已开源（Apache 2.0）。

它的核心亮点有三个：

信息图生成：给一句简单的提示词（比如"手冲咖啡步骤图"），十几秒出一张2K高清信息图。文字密度高、排版精准，这历来是生图模型的硬骨头。
连续图文交错输出：一次推理中同时输出多张图和多段文字，且保持风格、人物、逻辑的一致性。这是GPT-Image-2、Seedream等闭源模型都做不到的。
本地部署：8B参数对硬件要求不高，性能稍好的本地机器就能跑，支持vLLM和sglang推理框架。

U1信息图生成示例

U1在信息图生成基准上的得分与Qwen-Image 2.0、Seedream 4.5等大模型基本持平，但延迟显著更低。

图文交错：真正不一样的能力

大多数生图模型是"一次prompt出一张图"的单点能力。U1的图文交错让它能在一次输出里完成"概念 -> 概念图 -> 解释段落 -> 对比图 -> 总结"这样的混排。

几个典型的应用场景：

建筑设计：上传需求后，U1自动生成多个视角的连贯建筑图（外部全景、低角度仰视、高空俯瞰、室内框景），每张图配一段设计说明。
绘本/漫画：给定主题，自动生成分镜图和配文，人物和风格在多张图之间保持一致。
书籍配图：一章里需要"概念 -> 概念图 -> 解释段落 -> 对比图 -> 总结"这样的混排，U1一次就能出整页。

U1图文交错 · 悬崖图书馆设计

为什么一个8B模型能做到这些

已知的边界

U1目前还有一些局限：

少量错字：比如"Karpathy"会写成"Karpthy"，"蒸馏"的"馏"会写成"漓"。可以通过prompt工程绕开（用"卡帕西"替代Karpathy）。
复杂图表不绝对稳定：偶尔会出现排版偏差。
单张极致质量仍不及GPT-Image-2：但胜在速度、成本和可控性。

怎么上手

开源资源：

开源代码：github.com/OpenSenseNova/SenseNova-U1
HuggingFace：huggingface.co/collections/sensenova/sensenova-u1
Agent技能库：github.com/OpenSenseNova/SenseNova-Skills

部署要求：

模型8B参数，支持vLLM和sglang
性能稍好的本地机器即可运行，不需要专业显卡
对硬件要求不算高，FP16下约需16GB显存

适合谁用

自媒体和独立创作者：每天要出文章配图、信息图、海报，U1的速度让"试10个版本选1个"变成可行的工作流。
有数据敏感性的行业：医疗、金融、法务，本地部署确保数据不上云。
Agent长链路场景：一个任务需要生成10-50张图（教程、报告、绘本），跑本地几乎零边际成本。

全部

AI教程

AI产品

AI资源

商汤SenseNova U1：最强开源多模态生图模型

商汤SenseNova U1：最强开源多模态生图模型

核心能力：不只能画图，还能边想边画

图文交错：真正不一样的能力

为什么一个8B模型能做到这些

已知的边界

怎么上手

适合谁用

作者

分类

相关文章

腾讯混元离线翻译：0.4G模型手机端跑33种语言

Nemotron 3 Nano Omni：英伟达开源全模态模型

OpenClaw大更新：AI智能体不再是黑箱

商汤SenseNova U1：最强开源多模态生图模型

商汤SenseNova U1：最强开源多模态生图模型

核心能力：不只能画图，还能边想边画

图文交错：真正不一样的能力

为什么一个8B模型能做到这些

已知的边界

怎么上手

适合谁用

作者

分类

相关文章

腾讯混元离线翻译：0.4G模型手机端跑33种语言

Nemotron 3 Nano Omni：英伟达开源全模态模型

OpenClaw大更新：AI智能体不再是黑箱