高德ABot具身智能体系解析

在2026北京亦庄人形机器人半程马拉松上，一只四足机器人带着视障少年完成了障碍赛——它不依赖预设路线，不需要人工遥控，能在真实开放环境中自主判断路线、独立行动。它是"高德途途"，全球首款开放环境全自主具身机器人。

驱动它的不是某个单点模型，而是一套完整的技术体系：ABot。

ABot 是什么

ABot 是高德推出的首个面向AGI的全栈具身技术体系，包含三层架构：

数据层：ABot-World 可交互世界模型
模型层：ABot-N0 导航基座模型 + ABot-M0 操作基座模型
Agent层：ABot-Claw 机器人应用层操作系统

ABot全栈架构

这套体系横扫了具身智能领域15项SOTA，世界模型在CVPR 2026 Video World Model Workshop国际挑战赛中分数超过谷歌和英伟达。

ABot-N0：导航基座模型

核心能力

ABot-N0 将导航从"多任务拼接"重构为一个统一模型驱动的体系。同一个"导航大脑"可以在四足、轮式和人形等不同机器人上复用。

它一对多地处理五大类核心导航任务：

任务类型	说明
Point-Goal	按坐标走到指定位置
Object-Goal	在陌生环境找到目标物
Instruction-Following	理解并执行复杂指令
Person-Following	跟随行人在动态环境中移动
POI-Goal	识别并导航至兴趣点入口

架构设计

ABot-N0 的架构分为三层：

统一多模态编码器：将图像、历史观测、文本指令、空间坐标全部映射到同一个语义空间
认知大脑（双头设计）：推理头负责理解场景和判断规则，动作头负责快速执行，两部分协同工作
动作专家：采用流匹配生成连续轨迹，让机器人走得更自然

ABot-N0架构

性能数据

在7项国际权威具身导航基准上全部达到SOTA
SocNav 闭环导航成功率88.3%，相比此前最优方法提升超过40个百分点
合规性指标从30%区间飙升到85%以上

数据引擎

ABot-N0 背后是目前具身智能领域最大的数据引擎：7802个高保真3D场景、1690万条专家轨迹、500万条推理样本。

ABot-M0：操作基座模型

如果说 ABot-N0 解决"往哪走"，ABot-M0 就负责"怎么做"。

核心创新

ABot-M0 没有围绕某一类机器人或任务单独建模，而是用一套统一的动作表示，把来自不同来源、不同形态的数据放到同一个体系里。

UniACT数据集：目前最大的开源异构操作数据集，9500+小时、600多万条轨迹、20+种具身形态
动作流形学习（AML）：直接预测连续可执行轨迹，替代传统扩散式生成，推理步骤更少、动作更连贯
空间感知增强：额外加入3D信息处理模块，判断物体间的位置关系和操作角度

ABot-M0架构

在 Libero-Plus 基准上任务成功率达80.5%，相比此前标杆方案提升近30个百分点。

ABot-World：可交互世界模型

ABot-World 是整套体系的地基，由双引擎驱动：

ABot-3DGS：物理世界的"数字孪生工厂"，基于高德厘米级城市数据 + 3DGS技术构建
ABot-PhysWorld：因果推演的"物理思维引擎"，确保生成的场景符合物理规律

ABot-World双引擎架构

ABot-3DGS 的工作流程可以概括为"一翻译二重建三Run"：

翻译：将真实世界数据转化为多模态Clip（图像+空间位置+状态+行为）
重建：基于Clip构建万级3D场景（覆盖99%的典型生活场景）
Run：把机器人放进去训练，批量生成千万级训练轨迹

ABot-PhysWorld 的关键突破在于：它不追求"画面看起来像"，而是追求"物理上说得通"。物体不会穿透、夹爪不会无接触抓取、动作不会反重力悬浮。

ABot-Claw：Agent层操作系统

ABot-Claw 负责把所有能力统一调度起来：

跨具身共享记忆系统：图像语义层 + 几何地图层 + 物体中心拓扑层 + 地点锚定层
闭环反思与自我纠错：三级自适应决策闭环（执行-评估-进化）

新设备接入后直接继承已有认知，过去的成功和失败都会被记录和复用。

开源计划

高德已宣布将 ABot-World 开源，为所有开发者提供统一的、物理合规的、可进化的机器人世界模型操作系统。

应用场景

高德途途在导盲场景的验证说明，ABot体系已经具备处理开放环境、长程任务、极高安全要求的能力。同样的能力线可以延伸到：

城市配送和快递
园区和工厂巡检
服务业机器人
任何需要在开放环境中长期运行的具身任务