toolin.ai logo
toolin.ai
首页
AI工具
AI技能包
AI资讯
精选推文
AI提示词
提交AI工具提交
toolin.ai logo
toolin.ai

百万AI玩家的创作利器库,发现最佳AI工具组合,提升您的创作效率

AI工具994个
技能包11个
产品功能
  • AI工具
  • AI技能包
  • AI资讯
  • 精选推文
关于我们
  • 关于Toolin
  • 联系我们
  • 合作洽谈
  • 更新日志
关注我们
© 2025 toolin.ai. All rights reserved.
服务条款隐私政策

MonoArt:单张图片重建可交互3D模型,20秒搞定

2026/04/22
·toolin小编

南洋理工大学开源 MonoArt 框架,从单张图片生成具备关节、运动能力的3D模型,无需多视角或外部数据,推理仅需20秒

MonoArt:单张图片重建可交互3D模型,20秒搞定
MonoArt:单张图片重建可交互3D模型,20秒搞定
2026/04/22

MonoArt:单张图片重建可交互3D模型,20秒搞定

南洋理工大学开源 MonoArt 框架,从单张图片生成具备关节、运动能力的3D模型,无需多视角或外部数据,推理仅需20秒

MonoArt 是什么四步推理流程第一步:恢复 3D 几何第二步:识别可动部件第三步:推断运动方式第四步:输出运动学参数性能对比资源链接适用场景局限性
AI产品

现有的 3D 生成工具可以从单张图片生成 3D 模型,但生成的模型大多是焊死的静态资产。你想打开冰箱门?不行。你想让机器人搬动椅子?它不知道哪里可以折叠。

南洋理工大学 S-Lab 团队开源的 MonoArt 解决了这个问题:从单张图片生成既有形状、又有部件层级和关节信息的可交互 3D 模型。整个过程不需要多视角数据、不需要外部资产库、不需要辅助视频生成,推理只需要约 20 秒。

MonoArt 是什么

MonoArt 将单目可动物体重建建模为一个渐进式结构推理过程。模型不是一次性猜测物体怎么动,而是依次完成四个步骤:

  1. 恢复几何结构
  2. 识别可动部件
  3. 推断运动方式
  4. 估计运动学参数

最终输出一个既有形状、又有部件层级和关节信息的完整 3D 表示。

MonoArt 推理框架

四步推理流程

第一步:恢复 3D 几何

使用 TRELLIS 作为冻结的 3D 生成骨干,从单张图像输出一个标准网格(canonical mesh)以及对齐的潜在特征。后续所有关于部件和运动的推理,都建立在三维空间而非二维图像上。

第二步:识别可动部件

一个柜子的门和柜体是不同的部件,但网格本身不会告诉你这一点。MonoArt 使用 Part-Aware Semantic Reasoner 让模型"看懂"部件结构:

  • 将每个点的几何特征投影到三个正交平面(triplane)
  • 通过 Transformer 捕捉全局结构关系
  • 为每个点生成包含部件归属信息的 embedding
  • 使用 triplet loss 拉开不同部件特征之间的距离

训练前后的对比很直观:没有这个模块时,点特征难以区分不同部件;加上模块和监督后,不同部件的特征有了清晰边界。

第三步:推断运动方式

MonoArt 使用 Dual-Query Motion Decoder 做了一个解耦设计:

  • content query 编码部件语义(这是一扇门还是一个抽屉)
  • position query 编码空间运动锚点(旋转中心在哪里)
  • 两者通过 6 层迭代逐步对齐

这种"一边搞清楚是什么,一边搞清楚在哪里"的并行迭代方式,让运动推理更稳定。

第四步:输出运动学参数

最终输出:

  • 每个部件的 mask
  • 关节类型(固定、旋转、平移等)
  • 旋转轴方向和旋转中心位置
  • 运动范围上下限
  • 部件之间的父子关系(完整的运动学树)

💡 设计细节: 关节位置的预测采用残差形式,以上一步的 position query 为锚点,只预测偏移量。实验表明这比直接回归绝对坐标更准确。

性能对比

在 PartNet-Mobility 基准测试中,MonoArt 在 7 类和 46 类两种设置下均取得领先性能。

方法推理时间外部依赖
MonoArt20.5 秒无
Articulate-Anything229.9 秒VLM + 辅助视频
PhysXAnything256.8 秒外部先验

其中 MonoArt 的 18.2 秒花在 TRELLIS 做 3D 重建上,关节推理(articulation reasoning)本身只增加了约 2 秒。

资源链接

  • 论文: arxiv.org/abs/2603.19231
  • 项目页面: lihaitian.com/MonoArt
  • GitHub: github.com/Quest4Science/MonoArt

适用场景

MonoArt 对以下场景特别有价值:

  • 具身智能:为机器人提供可交互的 3D 物体模型
  • 游戏开发:快速将概念图转为可操作的 3D 资产
  • 室内设计:从照片重建家具的可动状态
  • AR/VR 应用:生成可以真实交互的虚拟物体

局限性

目前 MonoArt 仍有一些限制:

  • 依赖 TRELLIS 作为 3D 生成骨干,其本身的局限性会传递
  • 对于非常规运动方式(如弹性变形),推理能力有限
  • 单图输入的视角限制可能影响背面几何恢复的质量

如果你在做具身智能、游戏开发或 AR/VR 相关项目,MonoArt 提供了一种从单张图片快速获取可交互 3D 资产的方案。20 秒的推理速度意味着它可以被集成到实时工作流中。

所有文章

作者

avatar for toolin小编
toolin小编

分类

  • AI产品
MonoArt 是什么四步推理流程第一步:恢复 3D 几何第二步:识别可动部件第三步:推断运动方式第四步:输出运动学参数性能对比资源链接适用场景局限性

相关文章

NVIDIA Lyra 2.0:一张照片生成可漫游3D世界
AI产品

NVIDIA Lyra 2.0:一张照片生成可漫游3D世界

NVIDIA开源Lyra 2.0,单张2D图片直出3D高斯泼溅场景,支持持久探索和回访,可直接导出到物理引擎。

avatar for toolin小编
toolin小编
9小时前
星流Image-2:国内可用的AI设计白板工具
AI教程

星流Image-2:国内可用的AI设计白板工具

星流智能图片V2支持批量素材生成、编辑元素拆图、文字编辑、HD放大等功能,可理解为Lovart中文版,国内直接使用。

avatar for toolin小编
toolin小编
9小时前
329条GPT-Image-2提示词模板:工业级出图引擎
AI教程

329条GPT-Image-2提示词模板:工业级出图引擎

开源项目awesome-gpt-image-2逆向工程329条GPT-Image-2提示词,提供JSON/YAML结构化模板,支持Agent批量出图零幻觉。

avatar for toolin小编
toolin小编
2天前