提交AI工具提交

DreamLite：字节开源端侧AI画板，手机3秒出图

2026/05/12

·toolin小编

字节跳动开源 DreamLite，0.39B 参数统一扩散模型，在 iPhone 17 Pro 上 3 秒生成或编辑 1024x1024 图像，无需云端。

DreamLite：字节开源端侧AI画板，手机3秒出图

DreamLite：字节开源端侧AI画板，手机3秒出图

2026/05/12

DreamLite：字节开源端侧AI画板，手机3秒出图

字节跳动开源 DreamLite，0.39B 参数统一扩散模型，在 iPhone 17 Pro 上 3 秒生成或编辑 1024x1024 图像，无需云端。

解决的两个痛点三个核心技术点 1. In-Context 空间拼接 2. 渐进式联合预训练 3. RLHF 对齐 + DMD2 步数蒸馏性能表现获取方式适用场景

字节跳动智能创作部门开源了 DreamLite——一个主干网络仅 0.39B 参数的轻量级扩散模型，在单一网络内同时支持文生图和图像编辑两个任务。在 iPhone 17 Pro 上约 3 秒生成一张 1024x1024 图像，完全在设备端运行，无需云端。

适合需要在移动端或边缘设备上部署图像生成/编辑能力的开发者和产品团队。

解决的两个痛点

痛点一：生成和编辑要装两个模型。 现有方案中，文生图和图像编辑依赖两个独立的 pipeline。对内存和存储有限的移动设备来说，同时装两套模型几乎不可承受。

痛点二：质量和速度难兼得。 把大模型压缩到端侧体量后，质量断崖式下跌；追求画质则推理延迟退回到十几秒，丧失实时交互的意义。

DreamLite 的做法是把"生成"和"编辑"统一压进一个 0.39B 的网络里。

三个核心技术点

1. In-Context 空间拼接

在剪枝后的 SDXL U-Net 主干上，引入空间维度的 in-context 条件注入。模型输入始终是一对左右拼接的潜变量：

文生图：右侧参考图为全黑占位图（没有视觉条件）
图像编辑：右侧参考图为待编辑的原图

同时在文本 prompt 前插入显式任务 token（[Generate] 或 [Edit]），同一个 U-Net 根据输入自动判断任务类型，无需新增分支或适配器。

2. 渐进式联合预训练

直接联合训练生成和编辑任务会导致小模型训练不稳定，DreamLite 用了分阶段策略：

阶段一：大规模图文数据的 T2I 预训练
阶段二：激活 in-context 条件，训练图像编辑能力
阶段三：在统一范式下联合优化生成与编辑

3. RLHF 对齐 + DMD2 步数蒸馏

预训练后还有两轮打磨：

高质量 SFT + RLHF：生成任务用 HPSv3 做 reward model，编辑任务用 EditReward，通过 ReFL 做偏好优化
DMD2 步数蒸馏：把采样步数从数十步压缩到仅 4 步

性能表现

DreamLite 在 GenEval、DPG、ImgEdit 等主流基准上全面超越现有端侧模型，并与参数量大 10-30 倍的服务端模型表现相当。

在 iPhone 17 Pro 上的实际表现：约 3 秒生成或编辑一张 1024x1024 图像。

获取方式

论文：https://arxiv.org/abs/2603.28713
项目主页：https://carlofkl.github.io/dreamlite/
GitHub：https://github.com/ByteVisionLab/DreamLite
在线 Demo：https://huggingface.co/spaces/carlofkl/DreamLite

论文和推理代码均已开源，可以直接上手。

适用场景

移动端 App 集成：拍照后一键编辑，无需上传云端
离线图像处理：无网络环境下的图像生成和编辑
隐私敏感场景：图片不离开设备
嵌入式设备部署：0.39B 参数量适合资源受限的环境

作者

toolin小编

分类

AI产品

解决的两个痛点三个核心技术点 1. In-Context 空间拼接 2. 渐进式联合预训练 3. RLHF 对齐 + DMD2 步数蒸馏性能表现获取方式适用场景

相关文章

Hyper3D Rodin Gen-2.5 实测：4 秒百万面，引入类 LLM Thinking 机制

Hyper3D Rodin Gen-2.5 实测：4 秒百万面，引入类 LLM Thinking 机制

影眸发布 Hyper3D Rodin Gen-2.5，4 秒生成百万面 3D 模型，全球首个突破千万面精度上限，搭配 12K 原生贴图，已接入 Unity、Canva、Figma。

把豆包 Seed 2.1 Pro 接进 Claude Code：三步替换主力模型

把豆包 Seed 2.1 Pro 接进 Claude Code：三步替换主力模型

火山方舟兼容 Anthropic 协议，三步环境变量配置即可让 Claude Code 换用豆包 Seed 2.1 Pro，实测修复复杂项目 bug。

FineVLA 开源：一句话控制机器人用哪只手、抓哪里

FineVLA 开源：一句话控制机器人用哪只手、抓哪里

港大阿里联合开源 FineVLA 可控 VLA 框架，支持通过语言指定执行臂、接触区域等细节，RoboTwin 仿真成功率 86.8%。