toolin.ai logo
toolin.ai
首页
AI工具
AI技能包
AI资讯
精选推文
AI提示词
提交AI工具提交
toolin.ai logo
toolin.ai

百万AI玩家的创作利器库,发现最佳AI工具组合,提升您的创作效率

AI工具1,279个
技能包11个
产品功能
  • AI工具
  • AI技能包
  • AI资讯
  • 精选推文
关于我们
  • 关于Toolin
  • 联系我们
  • 合作洽谈
  • 更新日志
关注我们
© 2025 toolin.ai. All rights reserved.
服务条款隐私政策

SenseNova U1:开源的多模态图文创作模型

2026/04/30
·toolin小编

商汤发布 SenseNova U1 系列多模态模型,原生统一架构实现连续图文创作,免费开源,可作为 GPT Image 2 的国产替代方案

SenseNova U1:开源的多模态图文创作模型
SenseNova U1:开源的多模态图文创作模型
2026/04/30

SenseNova U1:开源的多模态图文创作模型

商汤发布 SenseNova U1 系列多模态模型,原生统一架构实现连续图文创作,免费开源,可作为 GPT Image 2 的国产替代方案

SenseNova U1 是什么两个核心能力连续图文创作输出高密度信息图生成开源版本说明如何体验
AI产品

GPT Image 2 的文字渲染和排版能力确实强,但 API 按量计费价格不低,国内团队接入也有门槛。商汤最新发布的 SenseNova U1 系列给出了一个开源免费的替代方案,不仅能做信息图,还支持在同一个模型内连续生成图文内容。

SenseNova U1 生成的信息图示例

SenseNova U1 是什么

SenseNova U1 是商汤发布的采用全新 NEO-Unify 架构的多模态模型。它不是把"理解模型"和"生成模型"拼在一起,而是把图文理解、图文推理和图文生成放进同一套架构里统一处理。

传统多模态方案的痛点在于:语言模型负责理解和推理,视觉编码器负责把图片转成模型能读懂的表示,图像生成部分再把结果转回像素。理解和生成之间需要不断做模态转换,角色一致性很难保证。U1 去掉了传统的视觉编码器(VE)和图像生成中的 VAE,让模型直接从原始像素和文字里学习。

两个核心能力

连续图文创作输出

这是最能体现 U1 原生统一架构特征的能力。不是"先写一段话,再配一张图",而是在一个模型内部完成文字和图像的连续生成。这在行业内是首创。

传统图文生成流程是:文本模型先完成文案,再把某些段落交给图像模型生成插图,两个模型之间的衔接往往导致风格不一致。U1 的做法是在一次推理中交替输出文字和图像,保持整体风格统一。

U1 连续图文生成示例

高密度信息图生成

信息图不是简单生成一张好看的图,它要求模型同时处理文字结构、视觉层级、版式布局、图标关系和信息密度。以前 AI 画图最容易翻车的地方恰好就是文字渲染和排版。U1 在这方面做了针对性优化。

开源版本说明

这次开源的是 SenseNova U1 Lite 系列,包含两个版本:

版本参数定位
U1 Lite 8B-MoT8B轻量级,适合接入工作流
U1 Lite A3B-MoTA3B更大容量,更强能力

跑分上,U1 Lite 系列均达到同量级开源模型的 SOTA 水平。定位上,它不是要和最大规模的闭源模型硬拼参数,而是做一个"够强、够轻、能开源、能接进工作流"的多模态模型。

图像理解和生成基准测试结果

如何体验

  1. 在线体验(免费):通过办公小浣熊的【一图读懂】功能可以直接体验 SenseNova U1 的信息图生成能力
  2. 本地部署:从开源仓库下载 U1 Lite 模型权重,自行部署到本地环境

提示:信息图生成时建议在 Prompt 中明确指定整体风格、主色调、模块数量和每个模块的具体内容,输出效果会更好。例如:"生成一张深蓝色科技感海报,分四个模块,模块一为三国联合主办(含北美地图),模块二为赛程安排表..."

所有文章

作者

avatar for toolin小编
toolin小编

分类

  • AI产品
SenseNova U1 是什么两个核心能力连续图文创作输出高密度信息图生成开源版本说明如何体验

相关文章

星火医疗大模型V3.5:91%医生采纳率的AI诊疗助手
AI产品

星火医疗大模型V3.5:91%医生采纳率的AI诊疗助手

讯飞星火医疗V3.5病历生成采纳率91%、书写时间缩短52%,获IDC和MedBench双料第一,综合能力超越GPT-5.5

avatar for toolin小编
toolin小编
1天前
Claude Fable 5:Anthropic最强模型实测指南
AI产品

Claude Fable 5:Anthropic最强模型实测指南

Anthropic发布Claude Fable 5与Mythos 5双版本,SWE-bench Pro得分80.3%,API定价输入$10/百万Token,限时免费至6月22日。

avatar for toolin小编
toolin小编
2天前
谷歌Gemini实时翻译:70+语言边听边译
AI产品

谷歌Gemini实时翻译:70+语言边听边译

Google发布Gemini 3.5 Live Translate,实现70+语言实时语音互译,保留语速语调,延迟仅几秒,已全球上线Google Translate和Meet。

avatar for toolin小编
toolin小编
2天前