提交AI工具提交

MonoArt：单张图片重建可交互3D模型，20秒搞定

2026/04/22

·toolin小编

南洋理工大学开源 MonoArt 框架，从单张图片生成具备关节、运动能力的3D模型，无需多视角或外部数据，推理仅需20秒

MonoArt：单张图片重建可交互3D模型，20秒搞定

MonoArt：单张图片重建可交互3D模型，20秒搞定

2026/04/22

MonoArt：单张图片重建可交互3D模型，20秒搞定

南洋理工大学开源 MonoArt 框架，从单张图片生成具备关节、运动能力的3D模型，无需多视角或外部数据，推理仅需20秒

MonoArt 是什么四步推理流程第一步：恢复 3D 几何第二步：识别可动部件第三步：推断运动方式第四步：输出运动学参数性能对比资源链接适用场景局限性

现有的 3D 生成工具可以从单张图片生成 3D 模型，但生成的模型大多是焊死的静态资产。你想打开冰箱门？不行。你想让机器人搬动椅子？它不知道哪里可以折叠。

南洋理工大学 S-Lab 团队开源的 MonoArt 解决了这个问题：从单张图片生成既有形状、又有部件层级和关节信息的可交互 3D 模型。整个过程不需要多视角数据、不需要外部资产库、不需要辅助视频生成，推理只需要约 20 秒。

MonoArt 是什么

MonoArt 将单目可动物体重建建模为一个渐进式结构推理过程。模型不是一次性猜测物体怎么动，而是依次完成四个步骤：

恢复几何结构
识别可动部件
推断运动方式
估计运动学参数

最终输出一个既有形状、又有部件层级和关节信息的完整 3D 表示。

MonoArt 推理框架

四步推理流程

第一步：恢复 3D 几何

使用 TRELLIS 作为冻结的 3D 生成骨干，从单张图像输出一个标准网格（canonical mesh）以及对齐的潜在特征。后续所有关于部件和运动的推理，都建立在三维空间而非二维图像上。

第二步：识别可动部件

一个柜子的门和柜体是不同的部件，但网格本身不会告诉你这一点。MonoArt 使用 Part-Aware Semantic Reasoner 让模型"看懂"部件结构：

将每个点的几何特征投影到三个正交平面（triplane）
通过 Transformer 捕捉全局结构关系
为每个点生成包含部件归属信息的 embedding
使用 triplet loss 拉开不同部件特征之间的距离

训练前后的对比很直观：没有这个模块时，点特征难以区分不同部件；加上模块和监督后，不同部件的特征有了清晰边界。

第三步：推断运动方式

MonoArt 使用 Dual-Query Motion Decoder 做了一个解耦设计：

content query 编码部件语义（这是一扇门还是一个抽屉）
position query 编码空间运动锚点（旋转中心在哪里）
两者通过 6 层迭代逐步对齐

这种"一边搞清楚是什么，一边搞清楚在哪里"的并行迭代方式，让运动推理更稳定。

第四步：输出运动学参数

最终输出：

每个部件的 mask
关节类型（固定、旋转、平移等）
旋转轴方向和旋转中心位置
运动范围上下限
部件之间的父子关系（完整的运动学树）

💡 设计细节: 关节位置的预测采用残差形式，以上一步的 position query 为锚点，只预测偏移量。实验表明这比直接回归绝对坐标更准确。

性能对比

在 PartNet-Mobility 基准测试中，MonoArt 在 7 类和 46 类两种设置下均取得领先性能。

方法	推理时间	外部依赖
MonoArt	20.5 秒	无
Articulate-Anything	229.9 秒	VLM + 辅助视频
PhysXAnything	256.8 秒	外部先验

其中 MonoArt 的 18.2 秒花在 TRELLIS 做 3D 重建上，关节推理（articulation reasoning）本身只增加了约 2 秒。

资源链接

论文: arxiv.org/abs/2603.19231
项目页面: lihaitian.com/MonoArt
GitHub: github.com/Quest4Science/MonoArt

适用场景

MonoArt 对以下场景特别有价值：

具身智能：为机器人提供可交互的 3D 物体模型
游戏开发：快速将概念图转为可操作的 3D 资产
室内设计：从照片重建家具的可动状态
AR/VR 应用：生成可以真实交互的虚拟物体

局限性

目前 MonoArt 仍有一些限制：

依赖 TRELLIS 作为 3D 生成骨干，其本身的局限性会传递
对于非常规运动方式（如弹性变形），推理能力有限
单图输入的视角限制可能影响背面几何恢复的质量

如果你在做具身智能、游戏开发或 AR/VR 相关项目，MonoArt 提供了一种从单张图片快速获取可交互 3D 资产的方案。20 秒的推理速度意味着它可以被集成到实时工作流中。

作者

toolin小编

分类

AI产品

MonoArt 是什么四步推理流程第一步：恢复 3D 几何第二步：识别可动部件第三步：推断运动方式第四步：输出运动学参数性能对比资源链接适用场景局限性

相关文章

NVIDIA Lyra 2.0：一张照片生成可漫游3D世界

NVIDIA Lyra 2.0：一张照片生成可漫游3D世界

NVIDIA开源Lyra 2.0，单张2D图片直出3D高斯泼溅场景，支持持久探索和回访，可直接导出到物理引擎。

星流Image-2：国内可用的AI设计白板工具

星流Image-2：国内可用的AI设计白板工具

星流智能图片V2支持批量素材生成、编辑元素拆图、文字编辑、HD放大等功能，可理解为Lovart中文版，国内直接使用。

329条GPT-Image-2提示词模板：工业级出图引擎

329条GPT-Image-2提示词模板：工业级出图引擎

开源项目awesome-gpt-image-2逆向工程329条GPT-Image-2提示词，提供JSON/YAML结构化模板，支持Agent批量出图零幻觉。