商汤开源 SenseNova U1,生成信息图比 Seedream 快两倍

中国 AI 巨头商汤科技(SenseTime)正式开源了最新多模态大模型 SenseNova U1。这款模型在单一架构内同时处理图像与文本的理解、推理与生成,信息图表生成速度达到同类商业模型的两倍。

打破「缝合怪」困局

长期以来,多模态 AI 系统普遍存在一个隐患——模块拼接带来的信息损耗。

传统方案通常是:一个模块读图、一个模块编码、一个模块做语言推理、再一个模块生成图像。每一次模块间的"交接",都可能丢失细节,导致最终图文不一致。

商汤开源 SenseNova U1,生成信息图比 Seedream 快两倍

SenseNova U1 走了一条更简洁的路线:彻底移除传统视觉编码器(Visual Encoder)和变分自编码器(VAE),将图像与语言统一在同一个表示空间中处理。视觉与语言从一开始就紧密耦合,模型不需要在不同系统间反复"翻译",信息流动更顺畅,生成内容的语义一致性也更好。

架构对比

  传统多模态架构 SenseNova U1
架构方式 视觉编码器 + VAE + 语言模型 + 扩散模型,各自独立 图像和语言共享表示空间,统一模型处理
信息传递 多模块间反复转换,每次交接都有损耗 跨模态直接在共享空间完成,无需反复"翻译"
图文交错 多数模型只能一次生成一张图 支持逐步生成图文混合内容
信息图速度 基准线(Qwen-Image-2.0 / Seedream-4.5) 约 2 倍快
推理延迟(蒸馏后) 通常数秒到数十秒 H100 上仅 2 秒(8 NFE 蒸馏)

这一架构最直接受益的场景,正是那些对排版、文字可读性、视觉结构和语义一致性同时有高要求的输出——信息图表、海报、漫画、教程图文等密集视觉内容。

商汤开源 SenseNova U1,生成信息图比 Seedream 快两倍

两款开源模型

U1-8B-MoT

基于稠密骨干网络构建,8B 参数量

U1-A3B-MoT

基于 MoE 架构,总参数 38B,每步仅激活 3B

两款模型在同规模开源模型中均达到领先水平,生成质量逼近部分商业图像模型,推理速度却快得多。

值得关注:U1-A3B-MoT 每步只激活 3B 参数,推理开销接近小模型,但生成质量逼近商业级大模型。这种"用小算力跑出大效果"的路线,对预算有限的团队很有吸引力。

在信息图表生成基准测试中,U1-8B-MoT 的速度约为 Qwen-Image-2.0 和 Seedream-4.5 的两倍,质量保持在同一梯队。

图文交织生成,解锁新场景

SenseNova U1 另一项值得关注的能力是交织式图文生成(Interleaved Generation)——模型可以一步步同时输出文字与图像,构成完整的多模态叙事流,而不是生成单张图像后戛然而止。

烹饪教程、产品说明、视觉故事、教育内容、AI Agent 工作流,这些场景都能从这种能力中直接受益。

商汤开源 SenseNova U1,生成信息图比 Seedream 快两倍

工程优化同样给力

除模型本身外,团队还一并开源了多项工程优化成果:

  • 8 步蒸馏 LoRA:推理步骤从 100 步压缩至 8 步,H100 单张推理时间从 23 秒降至 2 秒
  • ComfyUI 支持:提供文生图、图像编辑、图文交织生成的开箱即用工作流
  • SenseNova-Skills:包含信息图生成的提示词模板