DeepSeek 公布多模态推理新技术 Thinking with Visual Primitives,用坐标替代语言描述,在多项视觉推理任务上超越 GPT-5.4 和 Claude Sonnet 4.6


DeepSeek 公布多模态推理新技术 Thinking with Visual Primitives,用坐标替代语言描述,在多项视觉推理任务上超越 GPT-5.4 和 Claude Sonnet 4.6
DeepSeek 的多模态能力终于落地了。4 月底,DeepSeek 在网页端和 App 灰度上线了「识图模式」,同时发布了技术报告《Thinking with Visual Primitives(以视觉原语思考)》。这个模型最核心的变化是:在推理时不再只用文字思考,而是像人一样用"坐标"在图片上指指点点,把视觉锚点直接嵌入思维链。

DeepSeek 识图模式使用的是一个 284B 总参数、13B 激活参数的多模态推理模型,基座是 DeepSeek-V4-Flash。它已经可以在 DeepSeek 网页端和 App 中直接体验。
项目地址和技术报告已开源:
传统多模态模型在处理视觉推理时有一个致命问题:用自然语言描述图片中的对象时,描述天然是模糊的。"左边那个大的"、"靠近中央的红色物体"在密集场景里根本无法精确定位,模型越想越乱。
DeepSeek 把这个问题命名为 Reference Gap(指代鸿沟),解法很直接:把边界框(Bounding Box)和点坐标变成推理的基本单位,像文字一样穿插在思维链里。
举个例子,当模型在数图里有几只熊时,推理过程是这样的:
扫描图片寻找熊,找到一只
<|ref|>熊<|/ref|><|box|>[[452,23,804,411]]<|/box|>,它正在爬树,不在地面上,排除。再往左下看,找到另一只<|ref|>熊<|/ref|><|box|>[[50,447,647,771]]<|/box|>,站在岩石边缘,符合条件。
这就像人类在数东西时用手指逐一点过去。坐标不再是答案,而是推理过程中消除歧义的「锚点」。模型有两种视觉原语:边界框(<|box|>)用于定位和尺寸信息,点坐标(<|point|>)用于更抽象的空间指代。

架构层面的压缩同样值得关注。对于一张 756x756 的图片:
整体压缩比达到 7056 倍。对比一下:Claude Sonnet 4.6 处理同等图片需要约 870 个 KV 缓存条目,Gemini-3-Flash 需要约 1100 个。DeepSeek 用不到十分之一的缓存开销,实现了同等级别的推理能力。
识图模式支持开启/关闭深度思考。非思考模式下速度极快,几乎是秒回;开启深度思考后,推理能力大幅提升,但耗时也显著增加(复杂题可能需要 4 分钟以上)。

空间推理题的实测中,非思考模式秒答但容易出错,开启深度思考后正确率明显提升。不过当前版本的思考过程较为冗长,DeepSeek 团队也承认这一点还在优化中。
在 11 个基准测试上与主流模型对比:
| 任务 | DeepSeek | GPT-5.4 | Claude Sonnet 4.6 | Gemini-3-Flash |
|---|---|---|---|---|
| 计数 (Pixmo-Count) | 89.2% | 76.6% | 68.7% | 88.2% |
| 迷宫导航 | 66.9% | 50.6% | 48.9% | 49.4% |
| 路径追踪 | 56.7% | 46.5% | - | 41.4% |
| 空间推理 (MIHBench) | 85.3% | - | - | - |
在拓扑推理任务上优势最为明显,迷宫导航比 GPT-5.4 高出 16 个百分点以上。
提示:识图模式目前处于灰度阶段,如果你还没有看到该功能入口,可以关注 DeepSeek 官方后续的全面开放公告。

Agnes AI 无限期免费开放文本、图片、视频全模态模型API,本周升级1M超长上下文和4K超高清文生图能力。

《Loop Engineering橙皮书》发布,系统解析循环工程概念、五步骤工作流和六个核心零件,附Claude Code实操命令,GitHub和微信读书免费阅读。

Anthropic 推出 Claude Design 重大更新,支持设计系统导入、/design-sync 和 /design 代码双向同步及9大平台导出。