百度于 6 月 22 日发布了 Unlimited OCR 模型,该模型拥有 30 亿总参数,但在推理时仅会调用 5 亿参数。此举旨在解决端到端 OCR 模型在处理长文档时,随着生成内容增多而导致速度下降的问题。
端到端 OCR 模型是一种集成化的神经网络架构,它能够同时完成图像中文本的检测和字符的识别,无需像传统方法那样先框选文字再进行识别,从而减少了信息损失和计算上的重复。
现有的端到端 OCR 模型在生成每个 token 时,都会增加 KV cache 的占用,这会不断累积显存消耗和延迟,最终让用户感觉 AI 在处理多页文档时速度越来越慢。
Unlimited OCR 模型沿用了 DeepSeek OCR 的架构,保留了 DeepEncoder 和 Mixture-of-Experts(MoE)解码器。虽然总参数量为 30 亿,但实际推理过程中仅激活 5 亿参数。
在编码阶段,Unlimited OCR 采用了两级视觉编码,并在连接处实现了 16 倍的 token 压缩。这意味着原本 1024×1024 像素的 PDF 图像会被压缩成 256 个视觉 token,从根本上减轻了预填充的负担。
在模型训练方面,Unlimited OCR 在 DeepSeek OCR 的基础上进行了额外的 4000 步训练。训练过程中,DeepEncoder 部分被冻结,仅对解码器进行训练。训练使用了约 200 万份文档样本,并在 8 块 A800 GPU 上完成。训练数据的构成中,单页文档和多页文档的比例约为 9:1,多页样本是通过拼接方式生成的。
根据基准测试结果,Unlimited OCR 在 OmniDocBench v1.5 上的综合得分达到了 93.23,超越了 DeepSeek OCR 的 87.01 和 DeepSeek OCR 2 的 89.17。
具体来看,该模型在文本编辑距离方面为 0.038,公式 CDM 得分为 92.61,表格 TEDS 为 90.93,读序编辑距离为 0.045。在 OmniDocBench v1.6 的测试中,Unlimited OCR 的整体得分进一步提升至 93.92。

