toolin.ai logo
toolin.ai
首页
AI工具
AI技能包
AI资讯
精选推文
AI提示词
提交AI工具提交
toolin.ai logo
toolin.ai

百万AI玩家的创作利器库,发现最佳AI工具组合,提升您的创作效率

AI工具1,251个
技能包11个
产品功能
  • AI工具
  • AI技能包
  • AI资讯
  • 精选推文
关于我们
  • 关于Toolin
  • 联系我们
  • 合作洽谈
  • 更新日志
关注我们
© 2025 toolin.ai. All rights reserved.
服务条款隐私政策

SenseNova U1开源:一个模型同时搞定理解和生成

2026/05/15
·toolin小编

商汤开源SenseNova U1,采用NEO-Unify原生统一架构,完全去掉视觉编码器和解码器,8B参数挑战更大商业模型的图文生成能力。

SenseNova U1开源:一个模型同时搞定理解和生成
SenseNova U1开源:一个模型同时搞定理解和生成
2026/05/15

SenseNova U1开源:一个模型同时搞定理解和生成

商汤开源SenseNova U1,采用NEO-Unify原生统一架构,完全去掉视觉编码器和解码器,8B参数挑战更大商业模型的图文生成能力。

SenseNova U1是什么开源模型规格三大架构创新1. 近无损视觉接口2. 分辨率自适应噪声尺度3. 原生Mixture-of-Transformers(MoT)训练数据:3.4万亿token获取方式适合谁用
AI产品

多模态AI模型长期以来都是"拼"出来的:理解用一套视觉编码器,生成用另一套变分自编码器,两套系统的学习目标不同、表示空间各异,信息在模块之间传递时难免损耗。商汤科技最新开源的SenseNova U1,要终结这种缝合时代。

SenseNova U1是什么

SenseNova U1基于商汤首创的NEO-Unify原生统一架构,让多模态理解、推理与生成在模型内部形成一条完整链路,不再依靠外部模块拼接。

核心特征:完全去掉了预训练视觉编码器(VE)和变分自编码器(VAE)。模型从接近原始形态的信息(像素与文字本身)中学习,在同一个表示空间里统一建模理解与生成。

开源模型规格

此次开源的是SenseNova U1 Lite系列,包含两个规格:

模型骨干网络参数量激活参数
SenseNova-U1-8B-MoT稠密网络8B8B
SenseNova-U1-A3B-MoTMoE网络38B(总参数)理解3B + 生成3B

在Hugging Face和GitHub开源后,海外开发者社区迅速引发讨论。"完全去掉VE和VAE的统一架构"被视为近期多模态领域最值得关注的工程实践之一。

三大架构创新

1. 近无损视觉接口

输入端放弃预训练VE,改用两层卷积加GELU激活将图像转化为token(每个token对应32x32像素块)。输出端同样放弃VAE解码器,直接用MLP预测原始像素块。

消融实验数据:NEO-Unify(2B)在MS COCO 2017上的图像重建PSNR达31.56、SSIM达0.85,接近Flux VAE的32.65和0.91。说明近无损输入既能支持语义理解,也能维持像素级精度。

2. 分辨率自适应噪声尺度

统一架构需要处理从256x256到2048x2048的大跨度动态分辨率。传统方案基于固定噪声先验,分辨率变化时信噪比不一致,高分辨率下易崩坏。

NEO-Unify的解法:分辨率越高,噪声标准差按平方根比例同步上调,保证每个token在不同尺度下承受大致相同的噪声能量。

3. 原生Mixture-of-Transformers(MoT)

理解任务需要提取语义,生成任务需要将语义转化为像素,目标不同,直接共享所有参数会产生梯度干扰。

MoT架构让理解流与生成流在底层共享自注意力上下文,但在Q/K/V/O投影、归一化及MLP层进行完全参数解耦,实现"知识共享、专才专用"。

NEO-Unify架构的详细设计

训练数据:3.4万亿token

预训练语料约2.1万亿token,涵盖图文对、图注、信息图理解和纯文本。中期训练覆盖通用、Agent与空间、知识推理四大类。SFT阶段覆盖空间智能、多模态理解、推理等十个垂直领域。

累计token数超过3.4万亿,在同类开源统一模型中属于顶量级。

获取方式

  • 技术报告:arxiv.org/abs/2605.12500
  • 模型下载:huggingface.co/collections/sensenova/sensenova-u1
  • GitHub代码仓库:github.com/OpenSenseNova/SenseNova-U1

模型完全开源,包含代码、权重和技术报告。

适合谁用

如果你在做多模态应用开发,需要同时处理图像理解和图像生成任务,SenseNova U1的统一架构可以避免"拼两个模型"的工程复杂度。8B参数量在消费级显卡上就有不错的表现,38B MoE版本在激活参数仅3B的情况下能挑战更大的商业闭源模型。

所有文章

作者

avatar for toolin小编
toolin小编

分类

  • AI产品
SenseNova U1是什么开源模型规格三大架构创新1. 近无损视觉接口2. 分辨率自适应噪声尺度3. 原生Mixture-of-Transformers(MoT)训练数据:3.4万亿token获取方式适合谁用

相关文章

iOS 27 Siri大变身:独立App、多轮对话、灵动岛深度整合
AI产品

iOS 27 Siri大变身:独立App、多轮对话、灵动岛深度整合

iOS 27中Siri获得独立App形态,支持多轮对话和屏幕感知,Apple Intelligence深度整合灵动岛,但国行用户暂时无法使用

avatar for toolin小编
toolin小编
1天前
用AI员工找海外达人:AhaCreator实操指南
AI教程

用AI员工找海外达人:AhaCreator实操指南

手把手教你用AhaCreator完成从达人筛选、内容审核到跨境打款的完整海外达人营销流程,适合独立开发者和出海团队。

avatar for toolin小编
toolin小编
2天前
AI长视频生成:两大开源框架对比评测
AI产品

AI长视频生成:两大开源框架对比评测

VideoClaw和JoyAI-Echo两大开源框架同日发布,分别用多智能体协作和跨模态记忆库解决AI长视频一致性问题,本文对比两者技术方案。

avatar for toolin小编
toolin小编
2天前