toolin.ai logo
toolin.ai
首页
AI工具
AI技能包
AI资讯
精选推文
AI提示词
提交AI工具提交
toolin.ai logo
toolin.ai

百万AI玩家的创作利器库,发现最佳AI工具组合,提升您的创作效率

AI工具1,083个
技能包11个
产品功能
  • AI工具
  • AI技能包
  • AI资讯
  • 精选推文
关于我们
  • 关于Toolin
  • 联系我们
  • 合作洽谈
  • 更新日志
关注我们
© 2025 toolin.ai. All rights reserved.
服务条款隐私政策

DreamLite:字节开源端侧AI画板,手机3秒出图

2026/05/12
·toolin小编

字节跳动开源 DreamLite,0.39B 参数统一扩散模型,在 iPhone 17 Pro 上 3 秒生成或编辑 1024x1024 图像,无需云端。

DreamLite:字节开源端侧AI画板,手机3秒出图
DreamLite:字节开源端侧AI画板,手机3秒出图
2026/05/12

DreamLite:字节开源端侧AI画板,手机3秒出图

字节跳动开源 DreamLite,0.39B 参数统一扩散模型,在 iPhone 17 Pro 上 3 秒生成或编辑 1024x1024 图像,无需云端。

解决的两个痛点三个核心技术点1. In-Context 空间拼接2. 渐进式联合预训练3. RLHF 对齐 + DMD2 步数蒸馏性能表现获取方式适用场景
AI产品

字节跳动智能创作部门开源了 DreamLite——一个主干网络仅 0.39B 参数的轻量级扩散模型,在单一网络内同时支持文生图和图像编辑两个任务。在 iPhone 17 Pro 上约 3 秒生成一张 1024x1024 图像,完全在设备端运行,无需云端。

适合需要在移动端或边缘设备上部署图像生成/编辑能力的开发者和产品团队。

解决的两个痛点

痛点一:生成和编辑要装两个模型。 现有方案中,文生图和图像编辑依赖两个独立的 pipeline。对内存和存储有限的移动设备来说,同时装两套模型几乎不可承受。

痛点二:质量和速度难兼得。 把大模型压缩到端侧体量后,质量断崖式下跌;追求画质则推理延迟退回到十几秒,丧失实时交互的意义。

DreamLite 的做法是把"生成"和"编辑"统一压进一个 0.39B 的网络里。

三个核心技术点

1. In-Context 空间拼接

在剪枝后的 SDXL U-Net 主干上,引入空间维度的 in-context 条件注入。模型输入始终是一对左右拼接的潜变量:

  • 文生图:右侧参考图为全黑占位图(没有视觉条件)
  • 图像编辑:右侧参考图为待编辑的原图

同时在文本 prompt 前插入显式任务 token([Generate] 或 [Edit]),同一个 U-Net 根据输入自动判断任务类型,无需新增分支或适配器。

2. 渐进式联合预训练

直接联合训练生成和编辑任务会导致小模型训练不稳定,DreamLite 用了分阶段策略:

  • 阶段一:大规模图文数据的 T2I 预训练
  • 阶段二:激活 in-context 条件,训练图像编辑能力
  • 阶段三:在统一范式下联合优化生成与编辑

3. RLHF 对齐 + DMD2 步数蒸馏

预训练后还有两轮打磨:

  • 高质量 SFT + RLHF:生成任务用 HPSv3 做 reward model,编辑任务用 EditReward,通过 ReFL 做偏好优化
  • DMD2 步数蒸馏:把采样步数从数十步压缩到仅 4 步

性能表现

DreamLite 在 GenEval、DPG、ImgEdit 等主流基准上全面超越现有端侧模型,并与参数量大 10-30 倍的服务端模型表现相当。

在 iPhone 17 Pro 上的实际表现:约 3 秒生成或编辑一张 1024x1024 图像。

获取方式

  • 论文:https://arxiv.org/abs/2603.28713
  • 项目主页:https://carlofkl.github.io/dreamlite/
  • GitHub:https://github.com/ByteVisionLab/DreamLite
  • 在线 Demo:https://huggingface.co/spaces/carlofkl/DreamLite

论文和推理代码均已开源,可以直接上手。

适用场景

  • 移动端 App 集成:拍照后一键编辑,无需上传云端
  • 离线图像处理:无网络环境下的图像生成和编辑
  • 隐私敏感场景:图片不离开设备
  • 嵌入式设备部署:0.39B 参数量适合资源受限的环境
所有文章

作者

avatar for toolin小编
toolin小编

分类

  • AI产品
解决的两个痛点三个核心技术点1. In-Context 空间拼接2. 渐进式联合预训练3. RLHF 对齐 + DMD2 步数蒸馏性能表现获取方式适用场景

相关文章

Claude Code + 飞书 CLI:5个Agent办公实操玩法
AI教程

Claude Code + 飞书 CLI:5个Agent办公实操玩法

飞书 CLI 开源近 120 项能力,结合 Claude Code 实现会议知识库沉淀、工作复盘、对账自动化、画板协作和自动报销,全程免费可用。

avatar for toolin小编
toolin小编
2天前
PPT Skill 大更新:瑞士国际主义风格 + AI 配图一键出
AI产品

PPT Skill 大更新:瑞士国际主义风格 + AI 配图一键出

开源 PPT Skill 新增瑞士国际主义风格、GPT-Image 2.0 自动配图和多平台封面生成,一个对话搞定从大纲到发布的全流程。

avatar for toolin小编
toolin小编
2天前
火山引擎发布 Agent Plan:一站式 Agent 订阅套餐
AI产品

火山引擎发布 Agent Plan:一站式 Agent 订阅套餐

火山引擎推出 Agent Plan,将字节自研模型、主流三方模型和联网搜索等工具打包订阅,适配 Claude Code、OpenClaw 等 Agent 平台。

avatar for toolin小编
toolin小编
2天前