toolin.ai logo
toolin.ai
首页
所有AI工具
AI技能包
AI资讯
精选推文
提交AI工具提交
toolin.ai logo
toolin.ai

百万AI玩家的创作利器库,发现最佳AI工具组合,提升您的创作效率

AI工具745个
技能包11个
产品功能
  • 所有AI工具
  • AI技能包
  • AI资讯
  • 精选推文
关于我们
  • 关于Toolin
  • 联系我们
  • 合作洽谈
  • 更新日志
关注我们
© 2025 toolin.ai. All rights reserved.
服务条款隐私政策
MOCR:3B 小模型,把图表变成可编辑的 SVG 代码
2026/03/26

MOCR:3B 小模型,把图表变成可编辑的 SVG 代码

华中科大×小红书开源的 MOCR,不只识别文字,还能把文档里的图表、公式、流程图全部解析为结构化代码

传统 OCR 的致命短板

你用 OCR 扫描一份技术报告,文字识别得很准,但报告里最重要的那张柱状图呢?被裁成一张图片,丢掉了。

传统 OCR 的处理方式:

  • 文字 → 走 OCR 管线 → 变成 Markdown
  • 图表 → 裁成像素图 → 要么丢弃,要么只能做图像描述

问题在于:文档里大量的结构化语义信息在解析环节就被永久性地丢弃了。一张精心绘制的柱状图,可能浓缩了整份报告的核心结论;一个化学分子结构式,承载着关键的实验信息。

传统 OCR vs MOCR

MOCR 做了什么?

华中科技大学与小红书 hi lab 联合推出的 MOCR(Multimodal OCR) 提出了一个大胆的新范式:

不只识别文字,而是「解析一切」——文字、表格、图表、公式、流程图、化学结构式、UI 组件……通通变成可编辑、可渲染的结构化代码。

核心能力

1. 文档解析

  • 开源模型第一名(仅次于 Gemini 3 Pro)
  • olmOCR-Bench 总分 83.9(SOTA)
  • 在 ArXiv 论文解析、扫描数学文档、表格识别等子类别均拿到最优成绩

2. 图形重建

  • 3B 参数模型全面反超 Gemini 3 Pro
  • UniSVG 基准得分 0.902(Gemini 3 Pro 为 0.735)
  • 支持科学图表、网页 UI、化学结构图、考试题目图形等多种类型

MOCR 图形重建效果

技术亮点

1. 从零训练的视觉编码器

大多数视觉-语言模型会直接复用 CLIP 或 SigLIP 等预训练视觉编码器,但这些编码器是为自然图像设计的,对文档场景中的精细文字和几何图元感知能力不足。

MOCR 的 1.2B 参数视觉编码器完全从零训练,支持约 1100 万像素的原生高分辨率输入,不做降采样。

2. 三阶段渐进式预训练

阶段一:建立视觉-语言接口 让语言模型学会可靠地消费视觉 token

阶段二:广泛预训练 混合通用视觉数据与纯文本文档解析监督

阶段三:MOCR 专项强化 降低通用视觉数据比例,加大多模态文档解析权重,重点强化图形转 SVG 的能力

3. 四大数据来源

  • PDF 文档:用 dots.ocr 自动标注,生成带布局区域和阅读顺序的结构化页面转录
  • 网页渲染:将爬取的网页渲染为页面图像,HTML/DOM 提供天然的结构化标签
  • 原生 SVG 资产:从多种来源收集天然的 SVG 文件,渲染后构建图像-SVG 配对
  • 通用视觉数据:确保模型不丧失广泛的视觉理解能力

实际应用场景

场景 1:技术文档数字化

传统方式:

  • 扫描 PDF → 文字识别 → 图表手动重绘 → 耗时数天

用 MOCR:

  • 上传 PDF → 自动解析文字和图表 → 图表直接输出为 SVG → 可直接编辑

场景 2:学术论文处理

痛点:

  • 论文里的数学公式、统计图表、实验流程图都是关键信息
  • 传统 OCR 只能识别文字,图表信息丢失

MOCR 方案:

  • 公式 → LaTeX 代码
  • 图表 → SVG 矢量图
  • 流程图 → 可编辑的结构化代码

场景 3:化学/生物研究

需求:

  • 化学分子结构式、生物实验流程图需要精确还原
  • 传统方式需要专业人员手动重绘

MOCR 能力:

  • 直接将分子结构图解析为 SMILES 或 SVG
  • 保留所有结构细节,可直接用于后续分析

评估创新:OCR Arena

传统的 OCR 评估指标(如 WER、NED、TEDS)依赖规则化的字符串匹配,但对于复杂的 Markdown 输出来说过于脆弱。

OCR Arena 框架:

  • 用 Gemini 3 Flash 作为裁判,对两个模型的输出进行两两对比打分
  • 每次对比做正反两轮,消除位置偏好
  • 用 Elo 评分系统汇总排名
  • 通过 1000 次 bootstrap 重采样增强统计稳健性

Toolin 点评

核心价值:

  • 把文档解析从「识别文字」升级到「理解结构」
  • 3B 参数就能超越 Gemini 3 Pro,效率极高
  • 完全开源,代码和模型均可直接使用

适合谁:

  • 需要处理大量技术文档的团队
  • 学术研究人员(论文数字化)
  • 化学/生物研究领域(结构式解析)
  • 需要高质量文档解析的企业

局限性:

  • 固定使用 16 个控制点,对高频、极复杂运动细节的表达能力有提升空间
  • 基于固定网格拓扑的假设,暂不支持拓扑变化
  • 数据集规模(约 3.9 万条)相较于视频或图像领域仍偏小

论文地址:https://arxiv.org/abs/2603.13032 代码仓库:https://github.com/rednote-hilab/dots.mocr 研究团队:华中科技大学 × 小红书 hi lab

所有文章

作者

avatar for toolin小编
toolin小编

分类

  • AI产品
传统 OCR 的致命短板MOCR 做了什么?核心能力技术亮点1. 从零训练的视觉编码器2. 三阶段渐进式预训练3. 四大数据来源实际应用场景场景 1:技术文档数字化场景 2:学术论文处理场景 3:化学/生物研究评估创新:OCR ArenaToolin 点评

相关文章

SciClaw:科研人的深夜搭子,帮你通宵爆肝论文
AI产品

SciClaw:科研人的深夜搭子,帮你通宵爆肝论文

连接AI眼镜和自动化设备,自动整理数据、生成PPT、回复审稿意见、监控任务进度,还能复现顶刊实验

avatar for toolin小编
toolin小编
1天前
字节版「龙虾架构」火爆GitHub!开源获35k+ Star,内置Skill全家桶
AI产品

字节版「龙虾架构」火爆GitHub!开源获35k+ Star,内置Skill全家桶

Deer-Flow2超级智能体管理框架,采用单一主智能体+11层中间件链+动态子智能体架构,原生适配飞书,Docker一键部署

avatar for toolin小编
toolin小编
4天前
三步让MaxClaw住进微信!扫码就能用,一个账号最多养3只龙虾
AI教程

三步让MaxClaw住进微信!扫码就能用,一个账号最多养3只龙虾

MaxClaw接入微信只需三步:添加weixin-connect技能、输入指令获取二维码、扫码配对,支持语音互动和多账号部署

avatar for toolin小编
toolin小编
4天前