热门搜索:和平精英 原神 街篮2 

您的位置:首页 > > 教程攻略 > ai资讯 >百度开源 Unlimited OCR 模型:基于 DeepSeek OCR,解析文档告别 AI 越生成越慢

百度开源 Unlimited OCR 模型:基于 DeepSeek OCR,解析文档告别 AI 越生成越慢

来源:互联网 更新时间:2026-06-26 12:22

百度于 6 月 22 日开源了一款名为

Unlimited OCR

的端到端 OCR 模型,专门用于解决长文档解析时 AI 越生成越慢的痛点。以下教程将带你全面了解它的核心原理、亮点数据以及实际应用价值。

一、什么是端到端 OCR 模型?先搞清楚背景

在深入 Unlimited OCR 之前,我们先理解一下它所属的“端到端 OCR”是什么。

端到端 OCR 模型

是一个统一的神经网络系统,它把“检测图像中的文本位置”和“识别文本内容”两个步骤融合在一起。不同于传统方案需要先检测文字框、再单独识别每个框里的字,端到端模型直接从输入图像映射到文本序列输出,从而减少了信息丢失和计算冗余。

  • 传统 OCR 流程:

    检测文字区域 → 裁剪每个区域 → 逐个识别 → 合并结果(步骤多、易出错)
  • 端到端 OCR 流程:

    输入图像 → 直接输出文本序列(一步到位,更高效)

小提示: 端到端模型虽然简洁,但在处理多页长文档时,每生成一个 token 都会扩大 KV cache(键值缓存),导致显存占用和延迟不断上升,用户就会感觉“AI 越解析越慢”。Unlimited OCR 正是为了解决这个问题而设计的。

二、Unlimited OCR 模型的核心亮点

1. 延续 DeepSeek OCR 架构,但更强大

Unlimited OCR 继承了

DeepSeek OCR

的架构,保留了

DeepEncoder

(深度编码器)与

Mixture-of-Experts(混合专家,MoE)

解码器。

  • 总参数量:

    30 亿
  • 推理时激活参数:

    仅 5 亿(意味着实际运行时计算量很小,速度更快)

2. 两级视觉编码 + 16 倍 token 压缩,从源头减轻负担

编码端采用

两级视觉编码

策略,并在连接阶段执行

16 倍 token 压缩

  • 原本 1024×1024 的 PDF 图像,会被压缩为 仅 256 个视觉 token,大幅降低预填充阶段的显存和计算开销。

小提示: token 压缩就像把一本书的每一页都浓缩成一句话,AI 处理起来自然快得多。这是 Unlimited OCR 能够“越生越快”的关键技术。

3. 训练数据与配置

  • 基于 DeepSeek OCR 检查点继续训练

    4000 步

    ,冻结 DeepEncoder,只训练解码器。
  • 训练数据约

    200 万份文档样本

    ,运行在 8×16 A800 GPU 上。
  • 数据配比:单页与多页约

    9:1

    ,多页样本通过拼接构造(保证模型能处理长文档)。

三、基准测试成绩:全面超越 DeepSeek OCR

Unlimited OCR 在权威评测基准上表现出色,以下是关键数据:

评测项目 Unlimited OCR DeepSeek OCR DeepSeek OCR 2

OmniDocBench v1.5 整体得分

93.23 87.01 89.17
文本编辑距离 0.038
公式 CDM 92.61
表格 TEDS 90.93
读序编辑距离 0.045

OmniDocBench v1.6 整体得分

93.92

小提示: 文本编辑距离越低越好(0.038 表示错误极少),公式 CDM 和表格 TEDS 越高越好,说明公式和表格的识别准确率极高。

四、常见问题解答

Q1:Unlimited OCR 和普通 OCR 有什么本质区别?

普通 OCR 通常采用两阶段流程(检测→识别),Unlimited OCR 是端到端模型,直接从图像到文本。更重要的是,它通过 token 压缩和 MoE 机制解决了长文档解析时越生成越慢的问题。

Q2:这个模型能用在哪些场景?

非常适合需要解析

多页 PDF、扫描书籍、长篇合同、学术论文

等场景。比如一次上传 50 页的 PDF,Unlimited OCR 可以保持从头到尾一致的速度,不会出现“翻到后面几页就卡顿”的情况。

Q3:我如何获取或使用这个模型?

模型已在 GitHub 开源(项目名 Unlimited OCR Works,目前已获 6.8K Star)。你可以从官方仓库下载预训练权重,或通过 Hugging Face 等平台调用。建议使用 8×16 A800 级别 GPU 进行训练或微调。

Q4:模型对硬件要求高吗?

推理时仅激活 5 亿参数,显存占用较低。通常单张 A100 或 RTX 4090 就能流畅运行单页/少量多页文档。训练则需要多卡环境(如 8×16 A800)。

五、总结:为什么 Unlimited OCR 值得关注?

Unlimited OCR 不仅延续了 DeepSeek OCR 的优秀基因,更通过 token 压缩、MoE 解码器 等创新设计,真正实现了“越生越快”的愿景。在 OmniDocBench 评测中全面超越前代模型,尤其适合企业级长文档解析需求。如果你是开发者或研究者,不妨在 GitHub 上体验一下,或许能成为你文档处理流水线的核心组件。

  • Unlimited OCR Works Welcome the Era of One-shot Long-horizon Parsing

  • Unlimited OCR Works 的 GitHub 页面(已获 6.8K Star)

百度游戏热血屠龙
百度游戏热血屠龙

类型:角色扮演

大小:188.00M

语言:简体中文

平台:互联网

游戏下载

热门手游

手机号码测吉凶
本站所有软件,都由网友上传,如有侵犯你的版权,请发邮件haolingcc@hotmail.com 联系删除。 版权所有 Copyright@2012-2013 haoling.cc