来源:互联网 更新时间:2026-06-03 16:43
百度飞桨团队最近放出了PaddleOCR-VL系列的最新升级版本——PaddleOCR-VL-1.6。说实话,这个结果挺震撼的:一个仅有0.9B参数的模型,在OmniDocBench v1.6权威基准测试中拿下了96.33%的SOTA成绩,同时在v1.5和Real5-OmniDocBench上也都刷新了纪录。更关键的是,它在文本、公式、表格识别上全面领先,不管是开源还是闭源方案,都得往后稍稍。
模型架构跟1.5版本完全一致,这意味着如果你已经在用1.5版本,换到1.6就是零成本的即插即用——直接替换权重就完事了。
先说说这个模型都能干些什么。功能覆盖得很全,几乎把文档解析的各个角落都照顾到了:
它的技术方案很有意思。采用了“版面分析+VLM识别”的两阶段解耦架构:第一阶段由PP-DocLayoutV3检测25类文档元素,输出阅读顺序和坐标;第二阶段由0.9B参数的VLM逐元素识别。VLM内部使用NaViT动态分辨率视觉编码器,能自适应处理不同尺寸的图像,配合ERNIE-4.5-0.3B语言模型生成结构化输出,避免了固定分辨率导致的小字信息丢失。
1.6版本最大的看点在于——它是一次纯粹的“数据驱动升级”。模型结构和1.5完全一样,性能飞跃全部来自数据和训练策略的优化。团队仔细分析了1.5版本在OmniDocBench各子项中的薄弱环节,然后针对古籍、生僻字、印章、复杂表格这些场景做了定向数据增强。这里面有个叫“区域感知数据增强”的技术,值得单独拿出来说——针对薄弱区域引入CV模拟失真技术,在公式、文本等训练数据中模拟扫描、倾斜、光照、屏幕拍摄这些真实物理畸变;同时把文本发现任务的最大分辨率扩展到了2048×28×28像素,还注入了大规模印章和古籍专项数据。
训练策略上,采用了“预训练→SFT→强化学习”的渐进方案。预训练数据从2900万扩到了4600万图像-文本对;SFT阶段在原有OCR、表格、公式基础上新增了印章识别和文本发现任务;最后通过GRPO强化学习进一步对齐输出质量,实现了多任务统一。
使用方式很灵活,适合不同的场景和用户群体:
paddlepaddle-gpu==3.2.1(CUDA 12.6),然后pip install -U "paddleocr[doc-parser]",环境配置完就能用了。paddleocr doc_parser -i your_document.png或者paddleocr doc_parser -i document.pdf,直接输出解析结果,支持单张图片和PDF批量处理。PaddleOCRVL类初始化pipeline,调用predict()传入图片路径,结果可以通过print()查看,或者用sa ve_to_json()、sa ve_to_markdown()保存为结构化文件。ccr-2vdh3abv-pub.cnc.bj.baidubce.com/paddlepaddle/paddleocr-vl:latest-nvidia-gpu,启动容器后直接在容器内运行,适合生产环境部署。paddleocr genai_server一键启动HTTP服务,支持vLLM、SGLang、FastDeploy、Transformers、llama.cpp等多种后端,适合高并发API调用场景。拿它跟主流的GLM-OCR和MinerU 2.5比一下,差距还是挺明显的:
| 对比维度 | PaddleOCR-VL-1.6 | GLM-OCR | MinerU 2.5 |
|---|---|---|---|
| 开发方 | 百度飞桨 | 智谱AI | 上海AI Lab / 清华 |
| 参数规模 | 0.9B | 0.9B | 1.2B |
| OmniDocBench v1.6 | 96.33% | 95.22% | 95.75% |
| 文本识别 | 96.8 | 94.0 | — |
| 公式识别 | 97.5 | 96.5 | — |
| 表格识别 (TEDS) | 94.8 | 85.2 | 88.4 |
| 真实场景鲁棒性 | ✅ SOTA | ⚠️ 基础 | ⚠️ 基础 |
| 古籍/生僻字 | ✅ 显著增强 | ✅ 支持 | ⚠️ 一般 |
| 印章识别 | ✅ 增强 | ✅ 支持 | ❌ 未提及 |
| 部署成本 | 极低 | 极低 | 中等 |
| 开源协议 | 开源免费 | 开源免费 | 开源免费 |
第一回合:文本识别。PaddleOCR-VL-1.6的96.8分,直接把GLM-OCR的94.0给甩开了。第二回合:公式识别。GLM-OCR的96.5其实已经很强了,但PaddleOCR-VL-1.6的97.5还是略胜一筹。第三回合:表格识别。这一轮差距就大了,PaddleOCR-VL-1.6的94.8对GLM-OCR的85.2、MinerU的88.4,优势非常显著。别看MinerU在v1.6总分上跟GLM-OCR咬得很紧,但在更贴近现实的Real5-OmniDocBench上,差距就拉开了。
说实话,0.9B的参数能做到这个程度,技术路径的选择和数据工程的质量都是关键。它不是靠堆算力、堆参数量来取胜的,而是用更精巧的架构设计和更精准的数据策略,把每一分计算资源都用在了刀刃上。这才是真正的“因为专注,所以专业”。
项目代码和模型权重都已经在官方渠道开源,感兴趣的话可以自己去体验一下。
《Off Campus》第二季官宣:这对CP还在,但不再是主角
币安Binance虚拟货币交易平台 币安官方APP安卓苹果下载入口
客单价碾压宝马奥迪!极氪5月交付新车34377辆:连续4个月双增长
HBO 奇幻剧《龙之家族》第三季定档 6 月 22 日,最终预告片曝光喉道海战
archiveofourown 实战指南:常见用法整理
折后价近千元 澳洲一店主将真老鼠缝到内裤上当时尚单品卖
作家助手如何上传自制封面 作家助手如何设置小说的封面
如何在夸克浏览器中开启网页视频的倍速播放功能?
DOTA2 TI时隔七年重返上海!门票6月10日开抢,国服享受优先购买!
欧易OKX官方网站直达入口 2026欧易官方App安卓版v7.1.0下载安装
有寓意的易经网名男生(精选100个)
电视剧《小欢喜》剧情介绍
美国市场:股票相对债券的风险溢价正在消失
全链网:黄金价格因美元的走强及利率担忧而下跌
618装机配置作业! 从入门到顶配 每一分钱都花在刀刃
电影《遁甲门之消失的公主》剧情介绍
网石18禁MMO《RAVEN2:渡鸦》大型更新推出全新职业“军阀”
动漫《柚木家的四兄弟》剧情介绍
植物娘大战僵尸电脑端与手机端存档转移的方法
卡厄思梦境哀嚎螺旋塔攻略 哀嚎螺旋塔怎么玩
手机号码测吉凶
本站所有软件,都由网友上传,如有侵犯你的版权,请发邮件haolingcc@hotmail.com 联系删除。 版权所有 Copyright@2012-2013 haoling.cc