JoyAI-Image-Edit：首个融合空间智能的开源图像编辑模型

大多数图像 AI 能画出漂亮的图片，却搞不定一个基本问题：空间。换个角度透视崩塌，挪个物体遮挡错乱。京东开源的 JoyAI-Image-Edit 把"空间智能"写进了模型架构底层，让图像编辑从平面修图走向真正的三维理解。

JoyAI-Image-Edit 是什么

JoyAI-Image-Edit 是京东探索研究院开源的一体化图像模型，Apache 2.0 协议。它将一个 8B 参数的多模态语言模型（MLLM）和一个 16B 参数的多模态扩散 Transformer（MMDiT）耦合在一起，让"理解"和"生成"在同一个架构里形成闭环。

简单说：模型一边"看"一边"画"，一边"画"又帮它看得更清楚。

核心论文标题直白地写明了野心 -- "Awakening Spatial Intelligence in Unified Multimodal Understanding and Generation"（在统一的多模态理解与生成中，唤醒空间智能）。

三种核心空间编辑能力

相机控制

用自然语言告诉模型调整视角，比如"把相机往右偏 30 度，往下俯 15 度，再拉近一点"。模型会生成一张全新视角的图像，透视、遮挡、光影关系全部保持一致。

物体旋转

支持连续视角移动，生成逻辑连贯的多视角图像序列。比如让球鞋转到正面，让人物转到背面。

空间关系操控

挪动、旋转、缩放画面中的任意物体，场景结构保持稳定，遮挡自然，光影过渡顺滑。

空间编辑能力展示

15 类通用编辑能力

除了空间编辑，JoyAI-Image-Edit 还支持：替换、删除、添加、风格迁移、细节精修、长文本渲染等通用图像编辑操作。

输入一句指令就能给小猫戴上皇冠，或者将图片中的行人移走。长文本渲染也是拿手项。

怎么用

在线体验

HuggingFace Space 提供了在线 Demo，打开即用：

体验地址：https://huggingface.co/spaces/stevengrove/JoyAI-Image-Edit-Space

本地部署

已支持 ComfyUI，全面兼容 Diffusers 格式：

# 克隆仓库
git clone https://github.com/jd-opensource/JoyAI-Image.git

# 安装依赖并运行推理
# 详见仓库 README

GitHub：https://github.com/jd-opensource/JoyAI-Image
开源权重：https://modelscope.cn/models/jd-opensource/JoyAI-Image-Edit

应用场景

电商：一张商品主图自动衍生几十种视角和场景，保持商品一致性。

视频创作：利用空间编辑生成视频首尾帧，再用视频生成模型创建平滑过渡。

具身智能：机器人视觉感知的底座，支持"预演动作" -- 给机器人一张图片，模型能生成执行某个动作后的预期画面。

横向对比

与 Qwen-Image-Edit、Nano Banana Pro 相比，JoyAI-Image-Edit 在相机运动执行忠实度和新视角合成质量上明显领先。高保真的新视角能有效消除复杂空间关系的歧义。

横向对比

技术要点

架构：8B MLLM + 16B MMDiT，共享接口让空间意图从指令解析贯穿到图像生成
数据流水线：包含空间理解数据（OpenSpatial）、长文本渲染数据、编辑数据（SpatialEdit）
训练策略：多阶段优化，理解和生成形成闭环
开源协议：Apache 2.0，可自由商用

如果你在做电商视觉、机器人感知或需要精确空间控制的图像编辑，JoyAI-Image-Edit 值得立即上手试一试。

体验地址：https://huggingface.co/spaces/stevengrove/JoyAI-Image-Edit-Space

本地部署

已支持 ComfyUI，全面兼容 Diffusers 格式：

# 克隆仓库
git clone https://github.com/jd-opensource/JoyAI-Image.git

# 安装依赖并运行推理
# 详见仓库 README

GitHub：https://github.com/jd-opensource/JoyAI-Image
开源权重：https://modelscope.cn/models/jd-opensource/JoyAI-Image-Edit

应用场景

电商：一张商品主图自动衍生几十种视角和场景，保持商品一致性。

视频创作：利用空间编辑生成视频首尾帧，再用视频生成模型创建平滑过渡。

具身智能：机器人视觉感知的底座，支持"预演动作" -- 给机器人一张图片，模型能生成执行某个动作后的预期画面。

横向对比

技术要点

架构：8B MLLM + 16B MMDiT，共享接口让空间意图从指令解析贯穿到图像生成
数据流水线：包含空间理解数据（OpenSpatial）、长文本渲染数据、编辑数据（SpatialEdit）
训练策略：多阶段优化，理解和生成形成闭环
开源协议：Apache 2.0，可自由商用

如果你在做电商视觉、机器人感知或需要精确空间控制的图像编辑，JoyAI-Image-Edit 值得立即上手试一试。

全部

AI教程

AI产品

AI资源

JoyAI-Image-Edit：首个融合空间智能的开源图像编辑模型

JoyAI-Image-Edit：首个融合空间智能的开源图像编辑模型

作者

分类

相关文章

CODA：让LLM和新手写出光速GPU内核

支付宝Token Pay: Agent帮你花钱的支付基建

SkyClaw-v1.0: 逼近Opus 4.6的免费Agent模型

JoyAI-Image-Edit：首个融合空间智能的开源图像编辑模型

JoyAI-Image-Edit：首个融合空间智能的开源图像编辑模型

作者

分类

相关文章

CODA：让LLM和新手写出光速GPU内核

支付宝Token Pay: Agent帮你花钱的支付基建

SkyClaw-v1.0: 逼近Opus 4.6的免费Agent模型