视觉大模型遭遇滑铁卢：首个中国古文字OCR评测基准开源

来源:互联网 更新时间:2026-06-02 20:17

顶尖的人工智能，不仅要能解析屏幕上跳动的现代代码，更需要读懂三千年前龟甲兽骨上的刻痕。近日，腾讯混元大模型、SSV数字文化实验室联合多所高校与故宫博物院，共同发布了“Chronicles-OCR”。这是业界首个完整覆盖汉字“七体之变”演化轨迹的中国古文字感知评测基准。

为了真实、客观地衡量大模型的识别能力，该数据集由领域专家进行了多层级交叉标注，最终包含了2800张严格平衡的高质量图像。在标注策略上，团队也做了针对性区分：对于甲骨文、金文、篆书等古早字体，采用了单字级的精细标注；而对于隶书、楷书、行书、草书等更为成熟的字体，则采用了保留原始阅读顺序的序列级转写。

主流视觉模型全军覆没

基于这一基准，项目团队设计了四个层层递进的核心评测任务，其核心思路在于严格将模型的“视觉感知”能力与“语义推理”能力解耦开来。随后，他们对包括GPT-5、Gemini 3.1 Pro、Claude Opus 4.7在内的28个主流多模态大语言模型进行了系统性评测，结果却出人意料。

当面对缺乏现代版式先验知识的古早字体时，主流大模型在端到端的文本检测任务中几乎全部失效。即便是在细粒度识别任务上，最高准确率也仅有27.1%。一个更有趣的发现是，在此类任务中，如果强行开启大模型的“推理”模式，非但无法帮助理解，反而会放大视觉感知阶段的不确定性，导致整体识别表现进一步下降。

评测还暴露了当前视觉大模型的另一个认知偏差：在进行字体分类时，模型更容易被载体的纹理、材质等宏观特征所吸引，而非专注于判别微观的笔画结构与风格差异。这揭示了一个关键问题——今天最顶尖的AI，在面对承载数千年文明的中国传统古文字时，距离真正的“读懂”还有很长的路要走。

汉字从殷墟甲骨一路演化至今，其形体之变，本身就是一部可视化的文明史。Chronicles-OCR基准的开源，正是直面了这一技术现实。它通过清晰可见的性能差距，为未来的视觉大模型指明了一个明确的进化方向：从简单的“识字”，走向深度的“读史”。