toolin.ai logo
toolin.ai
首页
AI工具
AI技能包
AI资讯
精选推文
AI提示词
提交AI工具提交
toolin.ai logo
toolin.ai

百万AI玩家的创作利器库,发现最佳AI工具组合,提升您的创作效率

AI工具1,310个
技能包11个
产品功能
  • AI工具
  • AI技能包
  • AI资讯
  • 精选推文
关于我们
  • 关于Toolin
  • 联系我们
  • 合作洽谈
  • 更新日志
关注我们
© 2025 toolin.ai. All rights reserved.
服务条款隐私政策

百度 Unlimited OCR 开源:一次前向推理读完整本书

2026/06/23
·toolin小编

百度基于 DeepSeek OCR 推出的 Unlimited OCR,通过 R-SWA 机制实现 32K 上下文长程解析,OmniDocBench v1.5 端到端 SOTA 达 93.23%。

百度 Unlimited OCR 开源:一次前向推理读完整本书
百度 Unlimited OCR 开源:一次前向推理读完整本书
2026/06/23

百度 Unlimited OCR 开源:一次前向推理读完整本书

百度基于 DeepSeek OCR 推出的 Unlimited OCR,通过 R-SWA 机制实现 32K 上下文长程解析,OmniDocBench v1.5 端到端 SOTA 达 93.23%。

Unlimited OCR 是什么它解决了什么核心问题旧模型的瓶颈:解码端的 KV Cache 膨胀R-SWA 机制:在不丢长程依赖的前提下控制成本核心功能与基准表现性能数据适用场景怎么用实际体验优势边界应用场景
AI产品

DeepSeek OCR 留下的一个长文档解析难题,被百度接住了。百度在 HuggingFace 上开源了新模型 Unlimited OCR,在标准最大上下文长度 32K 的条件下,让 OCR 模型第一次能够一口气读完整本书——不是逐页处理,不是 for-loop 式拆任务,也不是靠外部调度器拼结果,而是真正意义上的一次前向推理直接完成数十页文档解析。本篇拆解它解决了什么问题、怎么用、以及开源后能干什么。

Unlimited OCR 是什么

把它理解成「能读长文档的 DeepSeek OCR Plus」。它直接构建在 DeepSeek OCR 的基础之上——视觉压缩部分 DeepSeek OCR 已经做到极致(一张 1024×1024 文档页编码后只剩 256 个视觉 token),Unlimited OCR 没有重做编码器,而是把全部精力放在解码阶段。项目主页一句话点题:「push DeepSeek-OCR one step further」。

它解决了什么核心问题

旧模型的瓶颈:解码端的 KV Cache 膨胀

为什么 DeepSeek OCR 视觉 token 压缩这么狠,还是很难处理长文档?答案在解码端。

视觉 token 压缩之后,模型生成的文本不会凭空消失。随着输出越来越长,解码器里的 KV Cache 会不断增长:输出越长,显存占用越高;历史越长,注意力计算越重;生成速度越来越慢。

这就是为什么过去大多数 OCR 系统最终都退回到逐页解析模式——再高效的编码器,也解决不了解码阶段不断膨胀的历史负担。

Unlimited OCR:一次前向推理直接完成数十页文档解析

关键不是「能不能处理多页」,而是「能不能在不退化到逐页模式的前提下处理」——Unlimited OCR 选了后者。

R-SWA 机制:在不丢长程依赖的前提下控制成本

Unlimited OCR 引入的核心机制是 R-SWA(Rotary Sliding Window Attention,旋转滑动窗口注意力)。它解决的问题直白:在不牺牲长程依赖建模能力的前提下,控制注意力计算成本。简单说,模型既能看到几十页之前的内容,又不让计算量随页数指数级爆炸——这是它能一次跑完整本书的底层原因。

核心功能与基准表现

性能数据

在文档解析主流基准 OmniDocBench v1.5 上:

  • Unlimited OCR 以 93.23% 的总分拿下端到端 SOTA
  • 比 DeepSeek OCR 整整高出 6 个百分点

OmniDocBench v1.5 是文档解析领域的标准基准,93.23% 意味着在真实文档(论文、教材、合同等)的端到端提取上达到当前最佳水平。

适用场景

由于一次前向推理能处理数十页,Unlimited OCR 特别适合:

  • 整本书 / 长报告一次性解析:以前需要逐页跑、再人工拼接,现在一次过
  • 保持跨页一致性:图表、引用、术语表跨页引用不会被逐页处理打断
  • 结构化文档抽取:长合同、长论文里复杂的表格、公式、版面都能整本读完再抽取

怎么用

模型已在 HuggingFace 开源,权重和代码可直接拉取:

  • 模型地址:HuggingFace 搜索「Unlimited OCR」(百度官方)
  • 基座:基于 DeepSeek OCR,原工程兼容性较好
  • 部署:标准 transformers / vLLM 流程即可加载,无需特殊框架

💡 提示:因为是建立在 DeepSeek OCR 之上,已经在用 DeepSeek OCR 的工程可以平滑迁移,主要是替换注意力实现和加载新权重,不需要重做数据管线。

实际体验

优势

  • 真长程:一次前向推理处理整本书,告别逐页拼接的工程复杂度
  • 基座扎实:站在 DeepSeek OCR 这个已经极致压缩的肩膀上,工程迁移成本低
  • 开源完整:权重+代码都开放,可以本地部署、二次微调

边界

  • 硬件门槛:32K 上下文长程推理对显存仍有要求,本地部署需要相应规格的 GPU
  • 领域适配:基准上 SOTA 不代表所有垂直文档(如高度专业医学影像)都最优,关键场景仍需自测

应用场景

  • 出版与学术:整本教材、整篇论文的结构化抽取,做知识库不再逐页处理
  • 法律合规:长合同、长卷宗的端到端条款提取
  • 企业文档中台:替代传统逐页 OCR 流水线,降低工程复杂度
  • 个人长文档处理:本地部署后,一次性把 PDF 整本转成结构化文本
所有文章

作者

avatar for toolin小编
toolin小编

分类

  • AI产品
Unlimited OCR 是什么它解决了什么核心问题旧模型的瓶颈:解码端的 KV Cache 膨胀R-SWA 机制:在不丢长程依赖的前提下控制成本核心功能与基准表现性能数据适用场景怎么用实际体验优势边界应用场景

相关文章

阿里 HappyHorse 1.1 实测:油腻感退了,1080P 还降价 25%
AI产品

阿里 HappyHorse 1.1 实测:油腻感退了,1080P 还降价 25%

阿里发布视频生成模型 HappyHorse 1.1,五大维度升级,1080P 每秒 1.2 元降为 0.9 元,附实测对比与体验地址。

avatar for toolin小编
toolin小编
3天前
豆包 Seed-Audio 1.0 实测:一次生成角色对话、音效、BGM
AI产品

豆包 Seed-Audio 1.0 实测:一次生成角色对话、音效、BGM

火山引擎 Seed-Audio 1.0 升级为影视级全要素直出,一段提示词即可生成多角色对话、音效与背景音乐,接近成片级声音。

avatar for toolin小编
toolin小编
2天前
百度开源 Unlimited OCR:500M 激活小模型,一口气读完 40 页不失忆
AI产品

百度开源 Unlimited OCR:500M 激活小模型,一口气读完 40 页不失忆

百度开源 Unlimited OCR,3B 总参数 / 500M 激活的端到端 OCR 模型,刷新 OmniDocBench SOTA,单次推理转录数十页文档不失忆。

avatar for toolin小编
toolin小编
3天前