toolin.ai logo
toolin.ai
首页
AI工具
AI技能包
AI资讯
精选推文
AI提示词
提交AI工具提交
toolin.ai logo
toolin.ai

百万AI玩家的创作利器库,发现最佳AI工具组合,提升您的创作效率

AI工具1,018个
技能包11个
产品功能
  • AI工具
  • AI技能包
  • AI资讯
  • 精选推文
关于我们
  • 关于Toolin
  • 联系我们
  • 合作洽谈
  • 更新日志
关注我们
© 2025 toolin.ai. All rights reserved.
服务条款隐私政策

商汤SenseNova U1开源:8B参数实现图文理解生成统一

2026/04/29
·toolin小编

商汤开源NEO-unify架构多模态模型,8B参数跑出大模型效果,15秒生成高密度信息图,支持连续性图文创作

商汤SenseNova U1开源:8B参数实现图文理解生成统一
商汤SenseNova U1开源:8B参数实现图文理解生成统一
2026/04/29

商汤SenseNova U1开源:8B参数实现图文理解生成统一

商汤开源NEO-unify架构多模态模型,8B参数跑出大模型效果,15秒生成高密度信息图,支持连续性图文创作

SenseNova U1 是什么核心能力高密度信息图生成连续性图文创作图文思维链性能与效率快速上手直接下载模型Agent 技能包办公小浣熊已知局限
AI产品

当 GPT-Image-2 让全网疯狂的时候,大多数国内用户面临一个现实问题:免费额度有限,遇到正事不够用。商汤开源的 SenseNova U1 瞄准了这个空档 -- 用 8B 参数的小模型,复刻了不少 GPT-Image-2 的核心能力,而且完全开源、不限次数。

SenseNova U1 是什么

SenseNova U1 是商汤最新开源的原生理解生成统一模型,采用自研 NEO-unify 架构。与传统的「视觉编码器负责看 + 变分自编码器负责画」拼接方案不同,NEO-unify 从底层把图像和文本当作同一类信息来建模,去掉了中间转换环节。

本次开源包含两个版本:

  • SenseNova-U1-8B-MoT:8B 参数,端侧可跑
  • SenseNova-U1-A3B-MoT:38B 参数 MoE 架构,提供更强的能力

核心能力

高密度信息图生成

这是 SenseNova U1 最实用的能力。输入一段文字内容,模型能自动提炼关键信息,生成排版精致、层级清晰的信息图。涵盖数据图解、攻略长图、科普海报、知识卡片等多种类型。

在信息图生成基准测试中,SenseNova U1 平均得分达到 50.7,是开源模型最强,媲美部分闭源商业模型。

连续性图文创作

SenseNova U1 是业内首个支持连贯图文交错生成的模型。它不是「先写完文字再补图」,而是在推理过程中同步输出图文内容,风格和角色在多张图中保持一致。

典型场景:生成一个「煎牛排教程」,从食材准备到装盘,每一步都配有图,牛排的形象从头到尾保持高度一致,不会画着画着变成另一块肉。

图文思维链

SenseNova U1 还具备独特的图文交错思维链能力。给它一张刚泡好的茶的照片,让它画出「一小时后的样子」,模型会先做物理推理:茶叶沉降、茶汤变深、蒸汽减少、光影变化,然后据此生成对应图像。

性能与效率

关键数据:

  • 生成速度:约 15 秒出一张图(2K 分辨率约 9 秒)
  • 文字渲染:在 Text Rendering 维度几乎全面领先同量级模型
  • 视觉推理:VBVR 得分 60.5,WISE 得分 69.0,GEdit-Bench 得分 7.47
  • 性能效率比:在延迟 vs 质量曲线上,位于最靠左的位置 -- 同等质量下速度最快

延迟vs性能

快速上手

直接下载模型

  • GitHub:https://github.com/OpenSenseNova/SenseNova-U1
  • Hugging Face:https://huggingface.co/collections/sensenova/sensenova-u1

Agent 技能包

商汤同步开源了 SenseNova-Skills 技能包,把 U1 做成了 Agent 中可直接调用的工具。其中 sn-infographic 自带 87 种版式、66 种风格,挂进 OpenClaw 后一句 /skill sn-infographic "提示词" 即可出图。

技能包地址:https://github.com/OpenSenseNova/SenseNova-Skills

办公小浣熊

如果不想自己部署,商汤 AI 办公智能体「办公小浣熊 3.0」即将接入 SenseNova U1,可直接体验。

已知局限

商汤在 README 中直接标注了当前不足:上下文最长 32K、人物在复杂场景中的细节偶有不稳定、长文字渲染偶尔有拼写或排版错误、连续性图文创作目前还是 beta 阶段。都标注了「持续改进中」。

所有文章

作者

avatar for toolin小编
toolin小编

分类

  • AI产品
SenseNova U1 是什么核心能力高密度信息图生成连续性图文创作图文思维链性能与效率快速上手直接下载模型Agent 技能包办公小浣熊已知局限

相关文章

Nemotron 3 Nano Omni:英伟达开源全模态模型
AI产品

Nemotron 3 Nano Omni:英伟达开源全模态模型

英伟达推出开源多模态推理模型,融合文本、视觉、语音,吞吐量达同类9倍,免费可用,支持本地至云端全场景部署

avatar for toolin小编
toolin小编
1天前
Neat.Skill:让AI Agent越用越聪明的开源工具
AI教程

Neat.Skill:让AI Agent越用越聪明的开源工具

开源Agent文档维护工具,自动审查项目文档体系并迭代更新,支持Claude Code、Codex、OpenCode、OpenClaw四个平台

avatar for toolin小编
toolin小编
1天前
腾讯混元离线翻译:0.4G模型手机端跑33种语言
AI产品

腾讯混元离线翻译:0.4G模型手机端跑33种语言

腾讯混元开源翻译模型Hy-MT1.5,极致压缩至440MB,支持33种语言离线互译,翻译质量超越谷歌翻译,手机端即可运行

avatar for toolin小编
toolin小编
1天前