MOCR：3B 小模型，把图表变成可编辑的 SVG 代码

传统 OCR 的致命短板

你用 OCR 扫描一份技术报告，文字识别得很准，但报告里最重要的那张柱状图呢？被裁成一张图片，丢掉了。

传统 OCR 的处理方式：

文字 → 走 OCR 管线 → 变成 Markdown
图表 → 裁成像素图 → 要么丢弃，要么只能做图像描述

问题在于：文档里大量的结构化语义信息在解析环节就被永久性地丢弃了。一张精心绘制的柱状图，可能浓缩了整份报告的核心结论；一个化学分子结构式，承载着关键的实验信息。

传统 OCR vs MOCR

MOCR 做了什么？

华中科技大学与小红书 hi lab 联合推出的 MOCR（Multimodal OCR） 提出了一个大胆的新范式：

不只识别文字，而是「解析一切」——文字、表格、图表、公式、流程图、化学结构式、UI 组件……通通变成可编辑、可渲染的结构化代码。

核心能力

1. 文档解析

开源模型第一名（仅次于 Gemini 3 Pro）
olmOCR-Bench 总分 83.9（SOTA）
在 ArXiv 论文解析、扫描数学文档、表格识别等子类别均拿到最优成绩

2. 图形重建

3B 参数模型全面反超 Gemini 3 Pro
UniSVG 基准得分 0.902（Gemini 3 Pro 为 0.735）
支持科学图表、网页 UI、化学结构图、考试题目图形等多种类型

MOCR 图形重建效果

技术亮点

1. 从零训练的视觉编码器

大多数视觉-语言模型会直接复用 CLIP 或 SigLIP 等预训练视觉编码器，但这些编码器是为自然图像设计的，对文档场景中的精细文字和几何图元感知能力不足。

MOCR 的 1.2B 参数视觉编码器完全从零训练，支持约 1100 万像素的原生高分辨率输入，不做降采样。

2. 三阶段渐进式预训练

阶段一：建立视觉-语言接口 让语言模型学会可靠地消费视觉 token

阶段二：广泛预训练 混合通用视觉数据与纯文本文档解析监督

阶段三：MOCR 专项强化 降低通用视觉数据比例，加大多模态文档解析权重，重点强化图形转 SVG 的能力

3. 四大数据来源

PDF 文档：用 dots.ocr 自动标注，生成带布局区域和阅读顺序的结构化页面转录
网页渲染：将爬取的网页渲染为页面图像，HTML/DOM 提供天然的结构化标签
原生 SVG 资产：从多种来源收集天然的 SVG 文件，渲染后构建图像-SVG 配对
通用视觉数据：确保模型不丧失广泛的视觉理解能力

实际应用场景

场景 1：技术文档数字化

传统方式：

扫描 PDF → 文字识别 → 图表手动重绘 → 耗时数天

用 MOCR：

上传 PDF → 自动解析文字和图表 → 图表直接输出为 SVG → 可直接编辑

场景 2：学术论文处理

痛点：

论文里的数学公式、统计图表、实验流程图都是关键信息
传统 OCR 只能识别文字，图表信息丢失

MOCR 方案：

公式 → LaTeX 代码
图表 → SVG 矢量图
流程图 → 可编辑的结构化代码

场景 3：化学/生物研究

需求：

化学分子结构式、生物实验流程图需要精确还原
传统方式需要专业人员手动重绘

MOCR 能力：

直接将分子结构图解析为 SMILES 或 SVG
保留所有结构细节，可直接用于后续分析

评估创新：OCR Arena

传统的 OCR 评估指标（如 WER、NED、TEDS）依赖规则化的字符串匹配，但对于复杂的 Markdown 输出来说过于脆弱。

OCR Arena 框架：

用 Gemini 3 Flash 作为裁判，对两个模型的输出进行两两对比打分
每次对比做正反两轮，消除位置偏好
用 Elo 评分系统汇总排名
通过 1000 次 bootstrap 重采样增强统计稳健性

Toolin 点评

核心价值：

把文档解析从「识别文字」升级到「理解结构」
3B 参数就能超越 Gemini 3 Pro，效率极高
完全开源，代码和模型均可直接使用

适合谁：

需要处理大量技术文档的团队
学术研究人员（论文数字化）
化学/生物研究领域（结构式解析）
需要高质量文档解析的企业

局限性：

固定使用 16 个控制点，对高频、极复杂运动细节的表达能力有提升空间
基于固定网格拓扑的假设，暂不支持拓扑变化
数据集规模（约 3.9 万条）相较于视频或图像领域仍偏小

论文地址：https://arxiv.org/abs/2603.13032 代码仓库：https://github.com/rednote-hilab/dots.mocr 研究团队：华中科技大学 × 小红书 hi lab

传统 OCR 的致命短板

你用 OCR 扫描一份技术报告，文字识别得很准，但报告里最重要的那张柱状图呢？被裁成一张图片，丢掉了。

传统 OCR 的处理方式：

文字 → 走 OCR 管线 → 变成 Markdown
图表 → 裁成像素图 → 要么丢弃，要么只能做图像描述

传统 OCR vs MOCR

MOCR 做了什么？

华中科技大学与小红书 hi lab 联合推出的 MOCR（Multimodal OCR） 提出了一个大胆的新范式：

不只识别文字，而是「解析一切」——文字、表格、图表、公式、流程图、化学结构式、UI 组件……通通变成可编辑、可渲染的结构化代码。

核心能力

1. 文档解析

开源模型第一名（仅次于 Gemini 3 Pro）
olmOCR-Bench 总分 83.9（SOTA）
在 ArXiv 论文解析、扫描数学文档、表格识别等子类别均拿到最优成绩

2. 图形重建

3B 参数模型全面反超 Gemini 3 Pro
UniSVG 基准得分 0.902（Gemini 3 Pro 为 0.735）
支持科学图表、网页 UI、化学结构图、考试题目图形等多种类型

MOCR 图形重建效果

技术亮点

1. 从零训练的视觉编码器

MOCR 的 1.2B 参数视觉编码器完全从零训练，支持约 1100 万像素的原生高分辨率输入，不做降采样。

2. 三阶段渐进式预训练

阶段一：建立视觉-语言接口 让语言模型学会可靠地消费视觉 token

阶段二：广泛预训练 混合通用视觉数据与纯文本文档解析监督

阶段三：MOCR 专项强化 降低通用视觉数据比例，加大多模态文档解析权重，重点强化图形转 SVG 的能力

3. 四大数据来源

PDF 文档：用 dots.ocr 自动标注，生成带布局区域和阅读顺序的结构化页面转录
网页渲染：将爬取的网页渲染为页面图像，HTML/DOM 提供天然的结构化标签
原生 SVG 资产：从多种来源收集天然的 SVG 文件，渲染后构建图像-SVG 配对
通用视觉数据：确保模型不丧失广泛的视觉理解能力

实际应用场景

场景 1：技术文档数字化

传统方式：

扫描 PDF → 文字识别 → 图表手动重绘 → 耗时数天

用 MOCR：

上传 PDF → 自动解析文字和图表 → 图表直接输出为 SVG → 可直接编辑

场景 2：学术论文处理

痛点：

论文里的数学公式、统计图表、实验流程图都是关键信息
传统 OCR 只能识别文字，图表信息丢失

MOCR 方案：

公式 → LaTeX 代码
图表 → SVG 矢量图
流程图 → 可编辑的结构化代码

场景 3：化学/生物研究

需求：

化学分子结构式、生物实验流程图需要精确还原
传统方式需要专业人员手动重绘

MOCR 能力：

直接将分子结构图解析为 SMILES 或 SVG
保留所有结构细节，可直接用于后续分析

评估创新：OCR Arena

传统的 OCR 评估指标（如 WER、NED、TEDS）依赖规则化的字符串匹配，但对于复杂的 Markdown 输出来说过于脆弱。

OCR Arena 框架：

用 Gemini 3 Flash 作为裁判，对两个模型的输出进行两两对比打分
每次对比做正反两轮，消除位置偏好
用 Elo 评分系统汇总排名
通过 1000 次 bootstrap 重采样增强统计稳健性

Toolin 点评

核心价值：

把文档解析从「识别文字」升级到「理解结构」
3B 参数就能超越 Gemini 3 Pro，效率极高
完全开源，代码和模型均可直接使用

适合谁：

需要处理大量技术文档的团队
学术研究人员（论文数字化）
化学/生物研究领域（结构式解析）
需要高质量文档解析的企业

局限性：

固定使用 16 个控制点，对高频、极复杂运动细节的表达能力有提升空间
基于固定网格拓扑的假设，暂不支持拓扑变化
数据集规模（约 3.9 万条）相较于视频或图像领域仍偏小

论文地址：https://arxiv.org/abs/2603.13032 代码仓库：https://github.com/rednote-hilab/dots.mocr 研究团队：华中科技大学 × 小红书 hi lab

全部

AI教程

AI产品

AI资源

MOCR：3B 小模型，把图表变成可编辑的 SVG 代码

MOCR：3B 小模型，把图表变成可编辑的 SVG 代码

作者

分类

相关文章

可灵原生4K：AI视频首次实现真4K直出

Claude Code五月更新全解读

Claude正式接入Office全家桶，跨应用共享记忆

MOCR：3B 小模型，把图表变成可编辑的 SVG 代码

MOCR：3B 小模型，把图表变成可编辑的 SVG 代码

作者

分类

相关文章

可灵原生4K：AI视频首次实现真4K直出

Claude Code五月更新全解读

Claude正式接入Office全家桶，跨应用共享记忆