toolin.ai logo
toolin.ai
首页
AI工具
AI技能包
AI资讯
精选推文
AI提示词
提交AI工具提交
toolin.ai logo
toolin.ai

百万AI玩家的创作利器库,发现最佳AI工具组合,提升您的创作效率

AI工具899个
技能包11个
产品功能
  • AI工具
  • AI技能包
  • AI资讯
  • 精选推文
关于我们
  • 关于Toolin
  • 联系我们
  • 合作洽谈
  • 更新日志
关注我们
© 2025 toolin.ai. All rights reserved.
服务条款隐私政策

JoyAI-Image-Edit:首个融合空间智能的开源图像编辑模型

2026/04/12
·toolin小编

京东开源 24B 参数图像模型,业内首个底层融合空间智能的一体化方案,支持相机控制、物体旋转与空间关系操控

JoyAI-Image-Edit:首个融合空间智能的开源图像编辑模型
JoyAI-Image-Edit:首个融合空间智能的开源图像编辑模型
2026/04/12

JoyAI-Image-Edit:首个融合空间智能的开源图像编辑模型

京东开源 24B 参数图像模型,业内首个底层融合空间智能的一体化方案,支持相机控制、物体旋转与空间关系操控

JoyAI-Image-Edit 是什么三种核心空间编辑能力相机控制物体旋转空间关系操控15 类通用编辑能力怎么用在线体验本地部署应用场景横向对比技术要点

大多数图像 AI 能画出漂亮的图片,却搞不定一个基本问题:空间。换个角度透视崩塌,挪个物体遮挡错乱。京东开源的 JoyAI-Image-Edit 把"空间智能"写进了模型架构底层,让图像编辑从平面修图走向真正的三维理解。

JoyAI-Image-Edit 是什么

JoyAI-Image-Edit 是京东探索研究院开源的一体化图像模型,Apache 2.0 协议。它将一个 8B 参数的多模态语言模型(MLLM)和一个 16B 参数的多模态扩散 Transformer(MMDiT)耦合在一起,让"理解"和"生成"在同一个架构里形成闭环。

简单说:模型一边"看"一边"画",一边"画"又帮它看得更清楚。

模型架构示意

核心论文标题直白地写明了野心 -- "Awakening Spatial Intelligence in Unified Multimodal Understanding and Generation"(在统一的多模态理解与生成中,唤醒空间智能)。

三种核心空间编辑能力

相机控制

用自然语言告诉模型调整视角,比如"把相机往右偏 30 度,往下俯 15 度,再拉近一点"。模型会生成一张全新视角的图像,透视、遮挡、光影关系全部保持一致。

相机控制效果

物体旋转

支持连续视角移动,生成逻辑连贯的多视角图像序列。比如让球鞋转到正面,让人物转到背面。

空间关系操控

挪动、旋转、缩放画面中的任意物体,场景结构保持稳定,遮挡自然,光影过渡顺滑。

空间编辑能力展示

15 类通用编辑能力

除了空间编辑,JoyAI-Image-Edit 还支持:替换、删除、添加、风格迁移、细节精修、长文本渲染等通用图像编辑操作。

通用编辑能力展示

输入一句指令就能给小猫戴上皇冠,或者将图片中的行人移走。长文本渲染也是拿手项。

怎么用

在线体验

HuggingFace Space 提供了在线 Demo,打开即用:

  • 体验地址:https://huggingface.co/spaces/stevengrove/JoyAI-Image-Edit-Space

本地部署

已支持 ComfyUI,全面兼容 Diffusers 格式:

# 克隆仓库
git clone https://github.com/jd-opensource/JoyAI-Image.git

# 安装依赖并运行推理
# 详见仓库 README
  • GitHub:https://github.com/jd-opensource/JoyAI-Image
  • 开源权重:https://modelscope.cn/models/jd-opensource/JoyAI-Image-Edit

应用场景

电商:一张商品主图自动衍生几十种视角和场景,保持商品一致性。

视频创作:利用空间编辑生成视频首尾帧,再用视频生成模型创建平滑过渡。

视频创作流程

具身智能:机器人视觉感知的底座,支持"预演动作" -- 给机器人一张图片,模型能生成执行某个动作后的预期画面。

横向对比

与 Qwen-Image-Edit、Nano Banana Pro 相比,JoyAI-Image-Edit 在相机运动执行忠实度和新视角合成质量上明显领先。高保真的新视角能有效消除复杂空间关系的歧义。

横向对比

技术要点

  • 架构:8B MLLM + 16B MMDiT,共享接口让空间意图从指令解析贯穿到图像生成
  • 数据流水线:包含空间理解数据(OpenSpatial)、长文本渲染数据、编辑数据(SpatialEdit)
  • 训练策略:多阶段优化,理解和生成形成闭环
  • 开源协议:Apache 2.0,可自由商用

如果你在做电商视觉、机器人感知或需要精确空间控制的图像编辑,JoyAI-Image-Edit 值得立即上手试一试。

所有文章

作者

avatar for toolin小编
toolin小编

分类

    JoyAI-Image-Edit 是什么三种核心空间编辑能力相机控制物体旋转空间关系操控15 类通用编辑能力怎么用在线体验本地部署应用场景横向对比技术要点

    相关文章

    Hermes Agent 安装配置全指南:一行命令部署你的 AI 助手
    AI教程

    Hermes Agent 安装配置全指南:一行命令部署你的 AI 助手

    开源 AI Agent 框架 Hermes 的完整安装教程,涵盖模型选择、平台接入、数据迁移,支持 DeepSeek 和本地模型

    avatar for toolin小编
    toolin小编
    16小时前
    Hermes Agent:会自我进化的开源AI助手
    AI产品

    Hermes Agent:会自我进化的开源AI助手

    GitHub狂揽4.8万星的AI Agent框架,通过学习循环和四层记忆系统实现越用越强,支持多平台部署和主流大模型

    avatar for toolin小编
    toolin小编
    2天前
    AdaGen:让AI学会为每张图片定制生成策略
    AI产品

    AdaGen:让AI学会为每张图片定制生成策略

    清华大学开源的自适应图像生成框架,通过强化学习为每个样本量身定制最优策略,在四大主流生成范式上实现最高54%性能提升

    avatar for toolin小编
    toolin小编
    2天前