字节跳动开源 DreamLite,0.39B 参数统一扩散模型,在 iPhone 17 Pro 上 3 秒生成或编辑 1024x1024 图像,无需云端。


字节跳动开源 DreamLite,0.39B 参数统一扩散模型,在 iPhone 17 Pro 上 3 秒生成或编辑 1024x1024 图像,无需云端。
字节跳动智能创作部门开源了 DreamLite——一个主干网络仅 0.39B 参数的轻量级扩散模型,在单一网络内同时支持文生图和图像编辑两个任务。在 iPhone 17 Pro 上约 3 秒生成一张 1024x1024 图像,完全在设备端运行,无需云端。
适合需要在移动端或边缘设备上部署图像生成/编辑能力的开发者和产品团队。
痛点一:生成和编辑要装两个模型。 现有方案中,文生图和图像编辑依赖两个独立的 pipeline。对内存和存储有限的移动设备来说,同时装两套模型几乎不可承受。
痛点二:质量和速度难兼得。 把大模型压缩到端侧体量后,质量断崖式下跌;追求画质则推理延迟退回到十几秒,丧失实时交互的意义。
DreamLite 的做法是把"生成"和"编辑"统一压进一个 0.39B 的网络里。
在剪枝后的 SDXL U-Net 主干上,引入空间维度的 in-context 条件注入。模型输入始终是一对左右拼接的潜变量:
同时在文本 prompt 前插入显式任务 token([Generate] 或 [Edit]),同一个 U-Net 根据输入自动判断任务类型,无需新增分支或适配器。
直接联合训练生成和编辑任务会导致小模型训练不稳定,DreamLite 用了分阶段策略:
预训练后还有两轮打磨:
DreamLite 在 GenEval、DPG、ImgEdit 等主流基准上全面超越现有端侧模型,并与参数量大 10-30 倍的服务端模型表现相当。
在 iPhone 17 Pro 上的实际表现:约 3 秒生成或编辑一张 1024x1024 图像。
论文和推理代码均已开源,可以直接上手。

飞书 CLI 开源近 120 项能力,结合 Claude Code 实现会议知识库沉淀、工作复盘、对账自动化、画板协作和自动报销,全程免费可用。

开源 PPT Skill 新增瑞士国际主义风格、GPT-Image 2.0 自动配图和多平台封面生成,一个对话搞定从大纲到发布的全流程。

火山引擎推出 Agent Plan,将字节自研模型、主流三方模型和联网搜索等工具打包订阅,适配 Claude Code、OpenClaw 等 Agent 平台。