来源:互联网 更新时间:2026-06-26 14:28
Unlimited-OCR,百度最新推出的端到端长文档OCR模型,一句话总结就是:用常数级的资源消耗,实现数十页文档一次性转录。它的核心秘密在于一套名为Reference Sliding Window Attention(参考滑动窗口注意力)的机制——简单来说,就是让解码器的KV cache从线性增长压缩为常数,不再随页数膨胀。模型采用3B总参数的MoE架构,在OmniDocBench v1.6上以93.92%的总分拿下端到端SOTA,推理速度达到5580 TPS。更难得的是,代码和权重已经全面开源,拿过来就能用。
baidu/Unlimited-OCR)或GitHub(同名仓库)获取代码与权重,都是公开资源。| 维度 | Unlimited-OCR | DeepSeek-OCR |
|---|---|---|
模型规模 | 3B-A0.5B (MoE) | 3B-A0.5B (MoE) |
注意力机制 | R-SWA(参考滑动窗口注意力) | 标准全注意力 |
KV Cache 增长 | 常数(m+n),不随序列长度增加 | 线性增长,随输出序列持续累积 |
OmniDocBench v1.5 总分 | 93.23% | 87.01% |
OmniDocBench v1.6 总分 | 93.92% | 90.25%(DeepSeek-OCR 2) |
文本编辑距离 | 0.038 | 0.073 |
公式 CDM | 92.61% | 83.37% |
表格 TEDS | 90.93% | 84.97% |
阅读顺序编辑距离 | 0.045 | 0.086 |
推理速度 | 5580 TPS,全程常数延迟 | 4951 TPS,延迟随长度递增 |
长文档支持 | 单次前向 40+ 页,无需分页 | 长序列受限于KV cache膨胀,需分页处理 |
训练基础 | 基于DeepSeek-OCR checkpoint续训4000步 | 基座模型 |
《Off Campus》第二季官宣:这对CP还在,但不再是主角
币安Binance虚拟货币交易平台 币安官方APP安卓苹果下载入口
archiveofourown 实战指南:常见用法整理
客单价碾压宝马奥迪!极氪5月交付新车34377辆:连续4个月双增长
HBO 奇幻剧《龙之家族》第三季定档 6 月 22 日,最终预告片曝光喉道海战
折后价近千元 澳洲一店主将真老鼠缝到内裤上当时尚单品卖
作家助手如何上传自制封面 作家助手如何设置小说的封面
如何在夸克浏览器中开启网页视频的倍速播放功能?
DOTA2 TI时隔七年重返上海!门票6月10日开抢,国服享受优先购买!
欧易OKX官方网站直达入口 2026欧易官方App安卓版v7.1.0下载安装
美国市场:股票相对债券的风险溢价正在消失
有寓意的易经网名男生(精选100个)
电视剧《小欢喜》剧情介绍
全链网:黄金价格因美元的走强及利率担忧而下跌
618装机配置作业! 从入门到顶配 每一分钱都花在刀刃
电影《遁甲门之消失的公主》剧情介绍
网石18禁MMO《RAVEN2:渡鸦》大型更新推出全新职业“军阀”
动漫《柚木家的四兄弟》剧情介绍
《梦幻西游》159五开五门怎么搭配-159五开五门常见搭配
植物娘大战僵尸电脑端与手机端存档转移的方法
手机号码测吉凶
本站所有软件,都由网友上传,如有侵犯你的版权,请发邮件haolingcc@hotmail.com 联系删除。 版权所有 Copyright@2012-2013 haoling.cc