字节Lance：3B参数打通图像视频看画改全链路

字节跳动Intelligent Creation Lab开源了Lance——一个激活参数仅3B的原生统一多模态模型。它把图像和视频的理解、生成、编辑全部塞进了同一个模型里，开源即登Hugging Face Trending第一。

在动辄几十B、上百B参数的多模态模型里，3B的Lance是一股清流。但它不是在某个单项上刷分，而是把"看、画、改"放到同一张考卷上一起考。

核心能力

Lance覆盖6类任务：

任务类型	能力
图像/视频理解	OCR、知识问答、多图理解、视频问答
文生图	复杂文本指令下的图像生成
文生视频	自然运动、时序一致的视频生成
图像/视频编辑	主体增删、局部替换、风格迁移

视频编辑：连续三轮改视频

Lance不只是改一张关键帧。比如可以连续操作：先把短直发改成法式卷发，再加红白花朵发箍，最后把背景换成湖边童话城堡。关键是人物还是同一个人，动作不乱，前后帧不闪。

图像编辑：听懂自然语言

覆盖背景改变、材质修改、动作改变、人像美化、主体移除、替换和色调迁移。核心要求是听懂自然语言指令，同时保持主体身份和画面一致性。

Lance多模态能力展示

技术架构

在动辄几十B、上百B参数的多模态模型里，3B的Lance是一股清流。但它不是在某个单项上刷分，而是把"看、画、改"放到同一张考卷上一起考。

核心能力

Lance覆盖6类任务：

任务类型	能力
图像/视频理解	OCR、知识问答、多图理解、视频问答
文生图	复杂文本指令下的图像生成
文生视频	自然运动、时序一致的视频生成
图像/视频编辑	主体增删、局部替换、风格迁移

视频编辑：连续三轮改视频

图像编辑：听懂自然语言

覆盖背景改变、材质修改、动作改变、人像美化、主体移除、替换和色调迁移。核心要求是听懂自然语言指令，同时保持主体身份和画面一致性。

Lance多模态能力展示

基准	分数	说明
VBench（视频生成）	85.11	统一模型中领先
MVBench（视频理解）	62.0	统一模型中最佳，比第二名高11.3%
GenEval（图像生成）	0.90	与最佳总体分数持平
GEdit-Bench（图像编辑）	7.30	统一模型中最佳平均表现

全部

AI教程

AI产品

AI资源

字节Lance：3B参数打通图像视频看画改全链路

字节Lance：3B参数打通图像视频看画改全链路

核心能力

视频编辑：连续三轮改视频

图像编辑：听懂自然语言

技术架构

作者

分类

相关文章

Claude Tag：让AI真正成为你的团队同事

字节Lance：3B参数打通图像视频看画改全链路

字节Lance：3B参数打通图像视频看画改全链路

核心能力

视频编辑：连续三轮改视频

图像编辑：听懂自然语言

技术架构

作者

分类

相关文章

Claude Tag：让AI真正成为你的团队同事

豆包专业版实测：2亿人都能用的Agent办公模式

Netflix 开源 Headroom：砍掉 90% 冗余词元，省下 70 万美元

评测结果

开源资源

适合谁用