toolin.ai logo
toolin.ai
首页
AI工具
AI技能包
AI资讯
精选推文
AI提示词
提交AI工具提交
toolin.ai logo
toolin.ai

百万AI玩家的创作利器库,发现最佳AI工具组合,提升您的创作效率

AI工具1,257个
技能包11个
产品功能
  • AI工具
  • AI技能包
  • AI资讯
  • 精选推文
关于我们
  • 关于Toolin
  • 联系我们
  • 合作洽谈
  • 更新日志
关注我们
© 2025 toolin.ai. All rights reserved.
服务条款隐私政策

字节Lance:3B参数打通图像视频看画改全链路

2026/06/09
·toolin小编

字节跳动开源Lance,仅3B激活参数的原生统一多模态模型,同时覆盖图像视频的理解、生成和编辑,开源即登Hugging Face Trending第一。

字节Lance:3B参数打通图像视频看画改全链路
字节Lance:3B参数打通图像视频看画改全链路
2026/06/09

字节Lance:3B参数打通图像视频看画改全链路

字节跳动开源Lance,仅3B激活参数的原生统一多模态模型,同时覆盖图像视频的理解、生成和编辑,开源即登Hugging Face Trending第一。

核心能力视频编辑:连续三轮改视频图像编辑:听懂自然语言技术架构评测结果开源资源适合谁用
AI产品

字节跳动Intelligent Creation Lab开源了Lance——一个激活参数仅3B的原生统一多模态模型。它把图像和视频的理解、生成、编辑全部塞进了同一个模型里,开源即登Hugging Face Trending第一。

在动辄几十B、上百B参数的多模态模型里,3B的Lance是一股清流。但它不是在某个单项上刷分,而是把"看、画、改"放到同一张考卷上一起考。

核心能力

Lance覆盖6类任务:

任务类型能力
图像/视频理解OCR、知识问答、多图理解、视频问答
文生图复杂文本指令下的图像生成
文生视频自然运动、时序一致的视频生成
图像/视频编辑主体增删、局部替换、风格迁移

视频编辑:连续三轮改视频

Lance不只是改一张关键帧。比如可以连续操作:先把短直发改成法式卷发,再加红白花朵发箍,最后把背景换成湖边童话城堡。关键是人物还是同一个人,动作不乱,前后帧不闪。

图像编辑:听懂自然语言

覆盖背景改变、材质修改、动作改变、人像美化、主体移除、替换和色调迁移。核心要求是听懂自然语言指令,同时保持主体身份和画面一致性。

Lance多模态能力展示

技术架构

Lance的核心思路是两件事:

1. 统一上下文 把文本、图像、视频都放进同一个交错多模态上下文里。

2. 双流解耦 理解和生成的能力路径拆开,避免互相打架:

  • 理解路径:处理文本token和语义视觉token,负责问答和推理
  • 生成路径:处理VAE latent token,负责图像/视频生成与编辑

Lance架构

还有一个关键设计叫MaPE(Modality-Aware Rotary Positional Encoding),在时间维度里加入模态/功能组信息,让模型区分哪些token是用来理解的,哪些是生成条件,哪些是生成目标。

评测结果

基准分数说明
VBench(视频生成)85.11统一模型中领先
MVBench(视频理解)62.0统一模型中最佳,比第二名高11.3%
GenEval(图像生成)0.90与最佳总体分数持平
GEdit-Bench(图像编辑)7.30统一模型中最佳平均表现

一个有意思的发现:加入视频生成和编辑能力后,视频理解能力并没有被拖垮,反而多任务数据可能帮助模型学到更强的跨任务迁移。

开源资源

  • 论文:https://arxiv.org/abs/2605.18678
  • 项目主页:https://lance-project.github.io
  • GitHub代码:https://github.com/bytedance/Lance
  • HuggingFace模型:https://huggingface.co/bytedance-research/Lance

适合谁用

  • 需要轻量级多模态模型的研究者和开发者
  • 希望在图像/视频理解、生成、编辑之间做统一方案的项目
  • 对部署成本敏感,需要3B级别模型的场景

提示: 3B的参数量意味着可以在消费级GPU上运行,不需要A100或H100级别的硬件。但视频生成和编辑的质量与顶级闭源模型仍有差距,适合作为基线和原型验证。

所有文章

作者

avatar for toolin小编
toolin小编

分类

  • AI产品
核心能力视频编辑:连续三轮改视频图像编辑:听懂自然语言技术架构评测结果开源资源适合谁用

相关文章

千问高考志愿Agent:免费AI报志愿工具
AI产品

千问高考志愿Agent:免费AI报志愿工具

阿里千问上线国内首个全周期高考志愿填报Agent,面向1290万考生免费开放,提供志愿报告、志愿日历、志愿问答三项核心能力,40万AI考生提前压测。

avatar for toolin小编
toolin小编
刚刚
小米MiMo UltraSpeed:万亿参数模型跑出1000 tokens/s
AI产品

小米MiMo UltraSpeed:万亿参数模型跑出1000 tokens/s

小米MiMo-V2.5-Pro UltraSpeed在通用8卡GPU上实现万亿参数模型1000 tokens/s输出,是Pro满血版而非降智Flash版,API已上线可申请体验。

avatar for toolin小编
toolin小编
1天前
iOS 27 Siri大变身:独立App、多轮对话、灵动岛深度整合
AI产品

iOS 27 Siri大变身:独立App、多轮对话、灵动岛深度整合

iOS 27中Siri获得独立App形态,支持多轮对话和屏幕感知,Apple Intelligence深度整合灵动岛,但国行用户暂时无法使用

avatar for toolin小编
toolin小编
1天前