字节跳动开源 DreamLite,0.39B 参数统一扩散模型,在 iPhone 17 Pro 上 3 秒生成或编辑 1024x1024 图像,无需云端。


字节跳动开源 DreamLite,0.39B 参数统一扩散模型,在 iPhone 17 Pro 上 3 秒生成或编辑 1024x1024 图像,无需云端。
字节跳动智能创作部门开源了 DreamLite——一个主干网络仅 0.39B 参数的轻量级扩散模型,在单一网络内同时支持文生图和图像编辑两个任务。在 iPhone 17 Pro 上约 3 秒生成一张 1024x1024 图像,完全在设备端运行,无需云端。
适合需要在移动端或边缘设备上部署图像生成/编辑能力的开发者和产品团队。
痛点一:生成和编辑要装两个模型。 现有方案中,文生图和图像编辑依赖两个独立的 pipeline。对内存和存储有限的移动设备来说,同时装两套模型几乎不可承受。
痛点二:质量和速度难兼得。 把大模型压缩到端侧体量后,质量断崖式下跌;追求画质则推理延迟退回到十几秒,丧失实时交互的意义。
DreamLite 的做法是把"生成"和"编辑"统一压进一个 0.39B 的网络里。
在剪枝后的 SDXL U-Net 主干上,引入空间维度的 in-context 条件注入。模型输入始终是一对左右拼接的潜变量:
同时在文本 prompt 前插入显式任务 token([Generate] 或 [Edit]),同一个 U-Net 根据输入自动判断任务类型,无需新增分支或适配器。
直接联合训练生成和编辑任务会导致小模型训练不稳定,DreamLite 用了分阶段策略:
预训练后还有两轮打磨:
DreamLite 在 GenEval、DPG、ImgEdit 等主流基准上全面超越现有端侧模型,并与参数量大 10-30 倍的服务端模型表现相当。
在 iPhone 17 Pro 上的实际表现:约 3 秒生成或编辑一张 1024x1024 图像。
论文和推理代码均已开源,可以直接上手。

影眸发布 Hyper3D Rodin Gen-2.5,4 秒生成百万面 3D 模型,全球首个突破千万面精度上限,搭配 12K 原生贴图,已接入 Unity、Canva、Figma。

火山方舟兼容 Anthropic 协议,三步环境变量配置即可让 Claude Code 换用豆包 Seed 2.1 Pro,实测修复复杂项目 bug。

港大阿里联合开源 FineVLA 可控 VLA 框架,支持通过语言指定执行臂、接触区域等细节,RoboTwin 仿真成功率 86.8%。