百度开源 Unlimited OCR：500M 激活小模型，一口气读完 40 页不失忆

如果你做过文档数字化、合同解析或长 PDF 转录，大概率被一个共同问题折磨过：OCR 模型一页一页"失忆"，几十页文档靠外部调度器拼起来，越往后越慢、越乱。百度最新开源的 Unlimited OCR 直接瞄准这个痛点，单次推理从第一页读到最后一页，KV 缓存占用恒定。

它适合需要长文档端到端解析的开发者、做 RAG 知识库的团队，以及想把 OCR 嵌进生产管线但被"逐页处理"拖累的人。模型和代码已经全部开源，可以立刻拿来用。

Unlimited OCR：3B 参数 / 500M 激活的端到端 OCR 模型

Unlimited OCR 是什么

一句话概括：一个把"参考滑动窗口注意力"（R-SWA）应用到极致的端到端 OCR MoE 模型。

总参数 3B，实际激活仅 500M——在大模型时代几乎可以忽略不计
在 OmniDocBench v1.5 拿到 93.23%，v1.6 拿到 93.92%，刷新端到端 SOTA
同台对手里，235B 的 Qwen3-VL 是 89.15，72B 的 Qwen2.5-VL 是 87.02，Gemini-2.5 Pro 是 88.03

激活参数不到它们零头，跑分却把它们全甩开。这是 Unlimited OCR 最直观的卖点。

核心机制：R-SWA 解决"逐页失忆"

标准注意力机制下，随着输出变长，KV 缓存像滚雪球一样疯涨——内存吃不消，速度越来越慢。这才是逼着所有 OCR 模型逐页处理、频频"失忆"的真正原因。

百度的解法是 Reference Sliding Window Attention（R-SWA，参考滑动窗口注意力），对应人抄书时的注意力模式：

每生成一个 token，模型都去看全部"参考 token"（整张图像的视觉 token + 提示词），保证始终"看得见"完整原文
但在输出侧，只回看前面 128 个 token，就像抄书时只瞄一眼刚写的那几行
所有注意力层换成 R-SWA 后，KV 缓存变成一个固定容量的队列，输出 1 万 token 和 10 万 token 的内存占用完全一样

R-SWA 让 KV 缓存恒定，输出延迟全程一条平线

配合最初在 DeepSeek OCR 中登场的 DeepEncoder 编码器，一张 1024×1024 的 PDF 页面被压缩到仅 256 个视觉 token（16 倍压缩率）。由于视觉 token 在 R-SWA 下不参与状态转移，无论文档多长，图像信息永远清清楚楚，不会随解码过程退化。

跑分对比上，OmniDocBench v1.5 综合得分 93.23%，比 DeepSeek OCR 的 87.01% 高 6.22 个百分点；文本编辑距离从 0.073 降到 0.038，公式 CDM 从 83.37 飙到 92.61，表格 TEDS 从 84.97 升到 90.93。九大文档类型（PPT、论文、杂志、报纸等）中文本和阅读顺序两项全面超越 DeepSeek OCR，且在七个类别中领先 DeepSeek OCR 2。

效率对比：Unlimited OCR 的 TPS 始终高于 DeepSeek OCR

效率同样碾压：输出 6144 个 token 时，Unlimited OCR 的 TPS 是 7847，DeepSeek OCR 已经掉到 5822，差距 35%。这是一个 500M 激活的 MoE 小模型，在 DeepSeek OCR 基础上仅继续训练 4000 步的结果——R-SWA 对解析任务几乎是一种"免费午餐"。

怎么用

仓库和模型权重都已开放：

GitHub 仓库：https://github.com/baidu/Unlimited-OCR
Hugging Face 权重：https://huggingface.co/baidu/Unlimited-OCR

直接拉取仓库按 README 部署即可，权重支持本地推理。对想要把 OCR 嵌进生产管线、又不想被逐页调度逻辑拖累的团队来说，这是一条值得评估的新路径。

适用场景

长文档端到端转录：合同、论文、报告一次性读完，省掉外部切页调度
RAG 知识库构建：稳定的全文输出便于做切片和向量化
表格 / 公式 / 混合排版解析：在 TEDS、CDM 指标上明显领先
边缘 / 低算力部署：500M 激活量级，对硬件友好

💡 提示：当前版本上下文窗口为 32K，论文展望提到下一步要训到 128K，并构建 prefill pool 让模型学会自动翻页——届时 OCR 的边界会从"识别一页文字"扩展到"理解一整本书"。

背后的人

技术报告署名里有意思的细节：核心贡献者三位，技术总监挂了个"YY"缩写。GitHub 致谢栏把 Deepseek-OCR 和 Deepseek-OCR-2 排在前两位，结合能力、时间线和署名方式，外界普遍猜测 YY 是从 DeepSeek 离职的 OCR 核心作者魏浩然（一手搭建了 DeepSeek OCR 一代到二代，包括 DeepEncoder 和 MoE 解码器）。

对使用者来说，更实际的意义是：这套 R-SWA 范式如果继续推广到 ASR（语音识别）和翻译，百度手里握着的就不只是一个 OCR 模型，而是一套通用的长程解析技术框架。值得长期关注。