toolin.ai logo
toolin.ai
首页
AI工具
AI技能包
AI资讯
精选推文
AI提示词
提交AI工具提交
toolin.ai logo
toolin.ai

百万AI玩家的创作利器库,发现最佳AI工具组合,提升您的创作效率

AI工具1,299个
技能包11个
产品功能
  • AI工具
  • AI技能包
  • AI资讯
  • 精选推文
关于我们
  • 关于Toolin
  • 联系我们
  • 合作洽谈
  • 更新日志
关注我们
© 2025 toolin.ai. All rights reserved.
服务条款隐私政策

百度开源 Unlimited OCR:500M 激活小模型,一口气读完 40 页不失忆

2026/06/22
·toolin小编

百度开源 Unlimited OCR,3B 总参数 / 500M 激活的端到端 OCR 模型,刷新 OmniDocBench SOTA,单次推理转录数十页文档不失忆。

百度开源 Unlimited OCR:500M 激活小模型,一口气读完 40 页不失忆
百度开源 Unlimited OCR:500M 激活小模型,一口气读完 40 页不失忆
2026/06/22

百度开源 Unlimited OCR:500M 激活小模型,一口气读完 40 页不失忆

百度开源 Unlimited OCR,3B 总参数 / 500M 激活的端到端 OCR 模型,刷新 OmniDocBench SOTA,单次推理转录数十页文档不失忆。

Unlimited OCR 是什么核心机制:R-SWA 解决"逐页失忆"一次推理读完数十页怎么用适用场景背后的人
AI产品

如果你做过文档数字化、合同解析或长 PDF 转录,大概率被一个共同问题折磨过:OCR 模型一页一页"失忆",几十页文档靠外部调度器拼起来,越往后越慢、越乱。百度最新开源的 Unlimited OCR 直接瞄准这个痛点,单次推理从第一页读到最后一页,KV 缓存占用恒定。

它适合需要长文档端到端解析的开发者、做 RAG 知识库的团队,以及想把 OCR 嵌进生产管线但被"逐页处理"拖累的人。模型和代码已经全部开源,可以立刻拿来用。

Unlimited OCR:3B 参数 / 500M 激活的端到端 OCR 模型

Unlimited OCR 是什么

一句话概括:一个把"参考滑动窗口注意力"(R-SWA)应用到极致的端到端 OCR MoE 模型。

  • 总参数 3B,实际激活仅 500M——在大模型时代几乎可以忽略不计
  • 在 OmniDocBench v1.5 拿到 93.23%,v1.6 拿到 93.92%,刷新端到端 SOTA
  • 同台对手里,235B 的 Qwen3-VL 是 89.15,72B 的 Qwen2.5-VL 是 87.02,Gemini-2.5 Pro 是 88.03

激活参数不到它们零头,跑分却把它们全甩开。这是 Unlimited OCR 最直观的卖点。

核心机制:R-SWA 解决"逐页失忆"

标准注意力机制下,随着输出变长,KV 缓存像滚雪球一样疯涨——内存吃不消,速度越来越慢。这才是逼着所有 OCR 模型逐页处理、频频"失忆"的真正原因。

百度的解法是 Reference Sliding Window Attention(R-SWA,参考滑动窗口注意力),对应人抄书时的注意力模式:

  • 每生成一个 token,模型都去看全部"参考 token"(整张图像的视觉 token + 提示词),保证始终"看得见"完整原文
  • 但在输出侧,只回看前面 128 个 token,就像抄书时只瞄一眼刚写的那几行
  • 所有注意力层换成 R-SWA 后,KV 缓存变成一个固定容量的队列,输出 1 万 token 和 10 万 token 的内存占用完全一样

R-SWA 让 KV 缓存恒定,输出延迟全程一条平线

配合最初在 DeepSeek OCR 中登场的 DeepEncoder 编码器,一张 1024×1024 的 PDF 页面被压缩到仅 256 个视觉 token(16 倍压缩率)。由于视觉 token 在 R-SWA 下不参与状态转移,无论文档多长,图像信息永远清清楚楚,不会随解码过程退化。

一次推理读完数十页

在标准的 32K 上下文里,Unlimited OCR 一次前向推理就能转录数十页文档:

输入文档编辑距离(与原文逐字比对)重复输出 Distinct-35
20 页0.057—
40 页以上< 0.1197%

几十页一口气转录,几乎没有复读。

跑分对比上,OmniDocBench v1.5 综合得分 93.23%,比 DeepSeek OCR 的 87.01% 高 6.22 个百分点;文本编辑距离从 0.073 降到 0.038,公式 CDM 从 83.37 飙到 92.61,表格 TEDS 从 84.97 升到 90.93。九大文档类型(PPT、论文、杂志、报纸等)中文本和阅读顺序两项全面超越 DeepSeek OCR,且在七个类别中领先 DeepSeek OCR 2。

效率对比:Unlimited OCR 的 TPS 始终高于 DeepSeek OCR

效率同样碾压:输出 6144 个 token 时,Unlimited OCR 的 TPS 是 7847,DeepSeek OCR 已经掉到 5822,差距 35%。这是一个 500M 激活的 MoE 小模型,在 DeepSeek OCR 基础上仅继续训练 4000 步的结果——R-SWA 对解析任务几乎是一种"免费午餐"。

怎么用

仓库和模型权重都已开放:

  • GitHub 仓库:https://github.com/baidu/Unlimited-OCR
  • Hugging Face 权重:https://huggingface.co/baidu/Unlimited-OCR

直接拉取仓库按 README 部署即可,权重支持本地推理。对想要把 OCR 嵌进生产管线、又不想被逐页调度逻辑拖累的团队来说,这是一条值得评估的新路径。

适用场景

  • 长文档端到端转录:合同、论文、报告一次性读完,省掉外部切页调度
  • RAG 知识库构建:稳定的全文输出便于做切片和向量化
  • 表格 / 公式 / 混合排版解析:在 TEDS、CDM 指标上明显领先
  • 边缘 / 低算力部署:500M 激活量级,对硬件友好

💡 提示:当前版本上下文窗口为 32K,论文展望提到下一步要训到 128K,并构建 prefill pool 让模型学会自动翻页——届时 OCR 的边界会从"识别一页文字"扩展到"理解一整本书"。

背后的人

技术报告署名里有意思的细节:核心贡献者三位,技术总监挂了个"YY"缩写。GitHub 致谢栏把 Deepseek-OCR 和 Deepseek-OCR-2 排在前两位,结合能力、时间线和署名方式,外界普遍猜测 YY 是从 DeepSeek 离职的 OCR 核心作者魏浩然(一手搭建了 DeepSeek OCR 一代到二代,包括 DeepEncoder 和 MoE 解码器)。

对使用者来说,更实际的意义是:这套 R-SWA 范式如果继续推广到 ASR(语音识别)和翻译,百度手里握着的就不只是一个 OCR 模型,而是一套通用的长程解析技术框架。值得长期关注。

所有文章

作者

avatar for toolin小编
toolin小编

分类

  • AI产品
Unlimited OCR 是什么核心机制:R-SWA 解决"逐页失忆"一次推理读完数十页怎么用适用场景背后的人

相关文章

Codex 电脑操作实战:三种模式与使用指南
AI教程

Codex 电脑操作实战:三种模式与使用指南

详解 OpenAI Codex 的 Computer Use、Chrome 插件、应用内浏览器三种操作模式,附场景选择指南

avatar for toolin小编
toolin小编
2天前
GenShield:AI 生图检测+修复一体化开源框架
AI产品

GenShield:AI 生图检测+修复一体化开源框架

北大团队开源 GenShield,将 AI 生成图像检测与伪影修复统一到一个自回归框架,检测准确率达 98.8%

avatar for toolin小编
toolin小编
2天前
微信小微内测实测:右滑一下,把整个微信变成 Agent
AI产品

微信小微内测实测:右滑一下,把整个微信变成 Agent

微信官方 AI 助手小微内测体验:聊天总结、自动回复、调小程序、转账、看朋友圈、开发小工具,八大能力一次看懂。

avatar for toolin小编
toolin小编
1天前