您的位置：首页 > > 教程攻略 > ai资讯 >百度开源 Unlimited OCR 模型：基于 DeepSeek OCR，解析文档告别 AI 越生成越慢

百度开源 Unlimited OCR 模型：基于 DeepSeek OCR，解析文档告别 AI 越生成越慢

来源:互联网 更新时间:2026-06-26 12:22

百度于 6 月 22 日开源了一款名为

Unlimited OCR

的端到端 OCR 模型，专门用于解决长文档解析时 AI 越生成越慢的痛点。以下教程将带你全面了解它的核心原理、亮点数据以及实际应用价值。

一、什么是端到端 OCR 模型？先搞清楚背景

在深入 Unlimited OCR 之前，我们先理解一下它所属的“端到端 OCR”是什么。

端到端 OCR 模型

是一个统一的神经网络系统，它把“检测图像中的文本位置”和“识别文本内容”两个步骤融合在一起。不同于传统方案需要先检测文字框、再单独识别每个框里的字，端到端模型直接从输入图像映射到文本序列输出，从而减少了信息丢失和计算冗余。

传统 OCR 流程：
检测文字区域 → 裁剪每个区域 → 逐个识别 → 合并结果（步骤多、易出错）
端到端 OCR 流程：
输入图像 → 直接输出文本序列（一步到位，更高效）

小提示：端到端模型虽然简洁，但在处理多页长文档时，每生成一个 token 都会扩大 KV cache（键值缓存），导致显存占用和延迟不断上升，用户就会感觉“AI 越解析越慢”。Unlimited OCR 正是为了解决这个问题而设计的。

二、Unlimited OCR 模型的核心亮点

1. 延续 DeepSeek OCR 架构，但更强大

Unlimited OCR 继承了

DeepSeek OCR

的架构，保留了

DeepEncoder

（深度编码器）与

Mixture-of-Experts（混合专家，MoE）

解码器。

总参数量：
30 亿
推理时激活参数：
仅 5 亿（意味着实际运行时计算量很小，速度更快）

2. 两级视觉编码 + 16 倍 token 压缩，从源头减轻负担

编码端采用

两级视觉编码

策略，并在连接阶段执行

16 倍 token 压缩

：

原本 1024×1024 的 PDF 图像，会被压缩为仅 256 个视觉 token，大幅降低预填充阶段的显存和计算开销。

小提示： token 压缩就像把一本书的每一页都浓缩成一句话，AI 处理起来自然快得多。这是 Unlimited OCR 能够“越生越快”的关键技术。

3. 训练数据与配置

基于 DeepSeek OCR 检查点继续训练
4000 步
，冻结 DeepEncoder，只训练解码器。
训练数据约
200 万份文档样本
，运行在 8×16 A800 GPU 上。
数据配比：单页与多页约
9:1
，多页样本通过拼接构造（保证模型能处理长文档）。

三、基准测试成绩：全面超越 DeepSeek OCR

Unlimited OCR 在权威评测基准上表现出色，以下是关键数据：

评测项目	Unlimited OCR	DeepSeek OCR	DeepSeek OCR 2
OmniDocBench v1.5 整体得分	93.23	87.01	89.17
文本编辑距离	0.038	—	—
公式 CDM	92.61	—	—
表格 TEDS	90.93	—	—
读序编辑距离	0.045	—	—
OmniDocBench v1.6 整体得分	93.92	—	—

小提示：文本编辑距离越低越好（0.038 表示错误极少），公式 CDM 和表格 TEDS 越高越好，说明公式和表格的识别准确率极高。

四、常见问题解答

Q1：Unlimited OCR 和普通 OCR 有什么本质区别？

普通 OCR 通常采用两阶段流程（检测→识别），Unlimited OCR 是端到端模型，直接从图像到文本。更重要的是，它通过 token 压缩和 MoE 机制解决了长文档解析时越生成越慢的问题。

Q2：这个模型能用在哪些场景？

非常适合需要解析

多页 PDF、扫描书籍、长篇合同、学术论文

等场景。比如一次上传 50 页的 PDF，Unlimited OCR 可以保持从头到尾一致的速度，不会出现“翻到后面几页就卡顿”的情况。

Q3：我如何获取或使用这个模型？

模型已在 GitHub 开源（项目名 Unlimited OCR Works，目前已获 6.8K Star）。你可以从官方仓库下载预训练权重，或通过 Hugging Face 等平台调用。建议使用 8×16 A800 级别 GPU 进行训练或微调。

Q4：模型对硬件要求高吗？

推理时仅激活 5 亿参数，显存占用较低。通常单张 A100 或 RTX 4090 就能流畅运行单页/少量多页文档。训练则需要多卡环境（如 8×16 A800）。

五、总结：为什么 Unlimited OCR 值得关注？

Unlimited OCR 不仅延续了 DeepSeek OCR 的优秀基因，更通过 token 压缩、MoE 解码器等创新设计，真正实现了“越生越快”的愿景。在 OmniDocBench 评测中全面超越前代模型，尤其适合企业级长文档解析需求。如果你是开发者或研究者，不妨在 GitHub 上体验一下，或许能成为你文档处理流水线的核心组件。