商汤开源NEO-unify架构多模态模型,8B参数跑出大模型效果,15秒生成高密度信息图,支持连续性图文创作


商汤开源NEO-unify架构多模态模型,8B参数跑出大模型效果,15秒生成高密度信息图,支持连续性图文创作
当 GPT-Image-2 让全网疯狂的时候,大多数国内用户面临一个现实问题:免费额度有限,遇到正事不够用。商汤开源的 SenseNova U1 瞄准了这个空档 -- 用 8B 参数的小模型,复刻了不少 GPT-Image-2 的核心能力,而且完全开源、不限次数。
SenseNova U1 是商汤最新开源的原生理解生成统一模型,采用自研 NEO-unify 架构。与传统的「视觉编码器负责看 + 变分自编码器负责画」拼接方案不同,NEO-unify 从底层把图像和文本当作同一类信息来建模,去掉了中间转换环节。
本次开源包含两个版本:
这是 SenseNova U1 最实用的能力。输入一段文字内容,模型能自动提炼关键信息,生成排版精致、层级清晰的信息图。涵盖数据图解、攻略长图、科普海报、知识卡片等多种类型。
在信息图生成基准测试中,SenseNova U1 平均得分达到 50.7,是开源模型最强,媲美部分闭源商业模型。
SenseNova U1 是业内首个支持连贯图文交错生成的模型。它不是「先写完文字再补图」,而是在推理过程中同步输出图文内容,风格和角色在多张图中保持一致。
典型场景:生成一个「煎牛排教程」,从食材准备到装盘,每一步都配有图,牛排的形象从头到尾保持高度一致,不会画着画着变成另一块肉。
SenseNova U1 还具备独特的图文交错思维链能力。给它一张刚泡好的茶的照片,让它画出「一小时后的样子」,模型会先做物理推理:茶叶沉降、茶汤变深、蒸汽减少、光影变化,然后据此生成对应图像。
关键数据:

商汤同步开源了 SenseNova-Skills 技能包,把 U1 做成了 Agent 中可直接调用的工具。其中 sn-infographic 自带 87 种版式、66 种风格,挂进 OpenClaw 后一句 /skill sn-infographic "提示词" 即可出图。
技能包地址:https://github.com/OpenSenseNova/SenseNova-Skills
如果不想自己部署,商汤 AI 办公智能体「办公小浣熊 3.0」即将接入 SenseNova U1,可直接体验。
商汤在 README 中直接标注了当前不足:上下文最长 32K、人物在复杂场景中的细节偶有不稳定、长文字渲染偶尔有拼写或排版错误、连续性图文创作目前还是 beta 阶段。都标注了「持续改进中」。

英伟达推出开源多模态推理模型,融合文本、视觉、语音,吞吐量达同类9倍,免费可用,支持本地至云端全场景部署

开源Agent文档维护工具,自动审查项目文档体系并迭代更新,支持Claude Code、Codex、OpenCode、OpenClaw四个平台

腾讯混元开源翻译模型Hy-MT1.5,极致压缩至440MB,支持33种语言离线互译,翻译质量超越谷歌翻译,手机端即可运行