商汤开源的 8B 参数信息图生成模型,Apache 2.0 协议支持商用,文字渲染稳定、版面控制精准,成本约为闭源方案的十分之一。


商汤开源的 8B 参数信息图生成模型,Apache 2.0 协议支持商用,文字渲染稳定、版面控制精准,成本约为闭源方案的十分之一。
GPT-Image 2 带火了信息图生成,但它是闭源的,按 Token 计费,每百万输出 Token 高达 30 美元。如果你需要本地部署或二次开发,商汤开源的 SenseNova U1 是目前最值得关注的替代方案。8B 参数、Apache 2.0 协议、单卡可跑,社区实测成本约为闭源方案的十分之一。
SenseNova U1 是商汤科技开源的多模态生成模型系列,采用自研的 NEO-unify 架构。它丢弃了传统图像模型必备的 VAE 和视觉编码器,将像素与文字放入同一个表征空间原生建模。这意味着模型不再"翻译"图像,而是同时用两种语言思考,从根源上解决了压缩带来的细节丢失和噪声问题。
Hugging Face 中国开发者社区评价它:"实现了纯粹的端到端像素-文字建模。"

商汤在基础版之上进一步开源了 SenseNova-U1-8B-MoT-Infographic(信息图增强版),针对信息图场景做了专项优化。
信息图生成的最大难点是文字。SenseNova U1 信息图增强版在高密度中英文混排场景下,文字渲染无明显破绽。在一个包含大量柱状图、表格、中英双语的"LLM 架构演进"知识图解测试中,从 BERT 到 GPT-5 的年代和参数规模一目了然,没有出现文字乱码。
在海报生成测试中,模型能准确理解排版指令。比如要求"中间留白约占画面 40%"和"呼吸感极强",它没有塞入多余装饰,而是严格遵循了克制的设计原则。深色衬线字体与米色纸张纹理的搭配,精准捕捉到东方留白诗意与现代排版的平衡感。
在学术论文页面生成测试中,模型准确输出了 arXiv 风格的完整页面排版,格式清晰,复杂的数学公式也没有出现结构性错误,呈现出可直接使用的完成度。

在企业品牌运营逻辑的密集中文信息图测试中,模型准确渲染了几乎所有中文小字,排版清晰易读。

两款模型在信息图生成领域呈现出明确的分化:
| 维度 | GPT-Image 2 | SenseNova U1 增强版 |
|---|---|---|
| 设计取向 | 视觉派:追求光影、材质的视觉冲击 | 生产工具派:优先保障信息结构清晰 |
| 文字渲染 | 质量高但字号偏小 | 稳定且可读性强 |
| 成本 | 每百万输出 Token $30 | 约为闭源的 1/10 |
| 部署方式 | 仅 API 调用 | 本地部署,单卡可跑 |
| 开源协议 | 闭源 | Apache 2.0,支持商用 |
简单说,GPT-Image 2 适合追求视觉效果的场合,SenseNova U1 更适合需要精确信息传递的实际生产场景。

Anthropic 发布 Claude Opus 4.8,代码缺陷漏报率降至前代四分之一,同步上线动态工作流支持数百子智能体并行,思考强度对所有用户开放。

腾讯游戏发布的 AI 游戏创作平台,支持自然语言生成可运行游戏,覆盖 2D/3D,内置全链路 AIGC 工具和 2 万免费资产,零基础也能做出完整游戏。

从资产准备到剪辑拼接的完整流程,教你用 AI 工具链制作 115 秒品牌广告长视频,解决人脸漂移、场景不统一等核心痛点。