您的位置：首页 > > 教程攻略 > ai资讯 >PaddleOCR-VL-1.6 - 百度推出的文档解析视觉语言模型

PaddleOCR-VL-1.6 - 百度推出的文档解析视觉语言模型

来源:互联网 更新时间:2026-06-03 16:43

百度飞桨团队最近放出了PaddleOCR-VL系列的最新升级版本——PaddleOCR-VL-1.6。说实话，这个结果挺震撼的：一个仅有0.9B参数的模型，在OmniDocBench v1.6权威基准测试中拿下了96.33%的SOTA成绩，同时在v1.5和Real5-OmniDocBench上也都刷新了纪录。更关键的是，它在文本、公式、表格识别上全面领先，不管是开源还是闭源方案，都得往后稍稍。

模型架构跟1.5版本完全一致，这意味着如果你已经在用1.5版本，换到1.6就是零成本的即插即用——直接替换权重就完事了。

核心功能一览

先说说这个模型都能干些什么。功能覆盖得很全，几乎把文档解析的各个角落都照顾到了：

文本识别
：通用文本识别，支持109种语言，OmniDocBench v1.6文本得分96.8。
公式识别
：数学公式LaTeX识别，得分97.5，直接超越了GLM-OCR和MinerU。
表格识别
：复杂表格结构解析，连合并单元格和多层表头都能搞定，TEDS得分94.8。
古籍识别
：中文古籍、竖排文字识别能力大幅提升。
生僻字识别
：罕见汉字识别显著增强。
印章识别
：公章/印章文字提取与定位。
图表识别
：饼图、折线图等11类图表解析为结构化数据。
文本检测（Spotting）
：自然场景文字检测。
结构化输出
：支持Markdown、JSON、DOCX格式导出。
跨页表格合并
：自动识别并合并跨页表格。

技术原理：架构没变，但数据变了

它的技术方案很有意思。采用了“版面分析+VLM识别”的两阶段解耦架构：第一阶段由PP-DocLayoutV3检测25类文档元素，输出阅读顺序和坐标；第二阶段由0.9B参数的VLM逐元素识别。VLM内部使用NaViT动态分辨率视觉编码器，能自适应处理不同尺寸的图像，配合ERNIE-4.5-0.3B语言模型生成结构化输出，避免了固定分辨率导致的小字信息丢失。

1.6版本最大的看点在于——它是一次纯粹的“数据驱动升级”。模型结构和1.5完全一样，性能飞跃全部来自数据和训练策略的优化。团队仔细分析了1.5版本在OmniDocBench各子项中的薄弱环节，然后针对古籍、生僻字、印章、复杂表格这些场景做了定向数据增强。这里面有个叫“区域感知数据增强”的技术，值得单独拿出来说——针对薄弱区域引入CV模拟失真技术，在公式、文本等训练数据中模拟扫描、倾斜、光照、屏幕拍摄这些真实物理畸变；同时把文本发现任务的最大分辨率扩展到了2048×28×28像素，还注入了大规模印章和古籍专项数据。

训练策略上，采用了“预训练→SFT→强化学习”的渐进方案。预训练数据从2900万扩到了4600万图像-文本对；SFT阶段在原有OCR、表格、公式基础上新增了印章识别和文本发现任务；最后通过GRPO强化学习进一步对齐输出质量，实现了多任务统一。

怎么上手用

使用方式很灵活，适合不同的场景和用户群体：

本地安装
：安装paddlepaddle-gpu==3.2.1（CUDA 12.6），然后pip install -U "paddleocr[doc-parser]"，环境配置完就能用了。
命令行使用
：安装后运行paddleocr doc_parser -i your_document.png或者paddleocr doc_parser -i document.pdf，直接输出解析结果，支持单张图片和PDF批量处理。
Python API
：导入PaddleOCRVL类初始化pipeline，调用predict()传入图片路径，结果可以通过print()查看，或者用sa ve_to_json()、sa ve_to_markdown()保存为结构化文件。
Docker部署
：拉取官方镜像ccr-2vdh3abv-pub.cnc.bj.baidubce.com/paddlepaddle/paddleocr-vl:latest-nvidia-gpu，启动容器后直接在容器内运行，适合生产环境部署。
推理服务部署
：执行paddleocr genai_server一键启动HTTP服务，支持vLLM、SGLang、FastDeploy、Transformers、llama.cpp等多种后端，适合高并发API调用场景。

核心优势

SOTA精度
：OmniDocBench v1.6达96.33%，文本、公式、表格全维度第一。
极致轻量
：0.9B参数，远小于Qwen3-VL-235B、GPT-5.2这类通用大模型。
零成本迁移
：架构与1.5完全一致，直接替换权重即可。
真实场景鲁棒
：在扫描、扭曲、屏幕拍摄、光照变化、倾斜5大场景均刷新SOTA。
多硬件支持
：NVIDIA GPU（含Blackwell）、Apple Silicon、昆仑芯、昇腾、AMD、Intel全兼容。

竞品对比

拿它跟主流的GLM-OCR和MinerU 2.5比一下，差距还是挺明显的：

对比维度	PaddleOCR-VL-1.6	GLM-OCR	MinerU 2.5
开发方	百度飞桨	智谱AI	上海AI Lab / 清华
参数规模	0.9B	0.9B	1.2B
OmniDocBench v1.6	96.33%	95.22%	95.75%
文本识别	96.8	94.0	—
公式识别	97.5	96.5	—
表格识别 (TEDS)	94.8	85.2	88.4
真实场景鲁棒性	✅ SOTA	⚠️ 基础	⚠️ 基础
古籍/生僻字	✅ 显著增强	✅ 支持	⚠️ 一般
印章识别	✅ 增强	✅ 支持	❌ 未提及
部署成本	极低	极低	中等
开源协议	开源免费	开源免费	开源免费

第一回合：文本识别。PaddleOCR-VL-1.6的96.8分，直接把GLM-OCR的94.0给甩开了。第二回合：公式识别。GLM-OCR的96.5其实已经很强了，但PaddleOCR-VL-1.6的97.5还是略胜一筹。第三回合：表格识别。这一轮差距就大了，PaddleOCR-VL-1.6的94.8对GLM-OCR的85.2、MinerU的88.4，优势非常显著。别看MinerU在v1.6总分上跟GLM-OCR咬得很紧，但在更贴近现实的Real5-OmniDocBench上，差距就拉开了。

应用场景

文档数字化
：将纸质档案、书籍、论文扫描件转换为Markdown或JSON结构化电子文档，支持批量处理。
企业办公
：自动提取合同、发片、报表、审批单中的关键信息，对接ERP或OA系统实现流程自动化。
教育科研
：识别学术论文中的复杂公式（LaTeX输出）和表格数据，辅助文献整理与知识提取。
金融服务
：解析银&行票据、财务报表、对账单，实现数据自动录入与合规审计。
医疗健康
：结构化录入病历、检查报告、处方单，支持医院信息化系统对接。

说实话，0.9B的参数能做到这个程度，技术路径的选择和数据工程的质量都是关键。它不是靠堆算力、堆参数量来取胜的，而是用更精巧的架构设计和更精准的数据策略，把每一分计算资源都用在了刀刃上。这才是真正的“因为专注，所以专业”。

项目代码和模型权重都已经在官方渠道开源，感兴趣的话可以自己去体验一下。

PaddleOCR-VL-1.6 - 百度推出的文档解析视觉语言模型

核心功能一览

文本识别

公式识别

表格识别

古籍识别

生僻字识别

印章识别

图表识别

文本检测（Spotting）

结构化输出

跨页表格合并

技术原理：架构没变，但数据变了

怎么上手用

本地安装

命令行使用

Python API

Docker部署

推理服务部署

核心优势

SOTA精度

极致轻量

零成本迁移

真实场景鲁棒

多硬件支持

竞品对比

96.33%

96.5

94.8

应用场景

文档数字化

企业办公

教育科研

金融服务

医疗健康

热门资讯

热门手游

相关攻略

热门专题