百度开源 Unlimited OCR 模型：基于 DeepSeek OCR，解析文档告别 AI 越生成越慢 - 2026世界杯

2026-06-25 来源：上海唯星浏览量：666

百度于 6 月 22 日发布了 Unlimited OCR 模型，该模型拥有 30 亿总参数，但在推理时仅会调用 5 亿参数。此举旨在解决端到端 OCR 模型在处理长文档时，随着生成内容增多而导致速度下降的问题。

端到端 OCR 模型是一种集成化的神经网络架构，它能够同时完成图像中文本的检测和字符的识别，无需像传统方法那样先框选文字再进行识别，从而减少了信息损失和计算上的重复。

现有的端到端 OCR 模型在生成每个 token 时，都会增加 KV cache 的占用，这会不断累积显存消耗和延迟，最终让用户感觉 AI 在处理多页文档时速度越来越慢。

Unlimited OCR 模型沿用了 DeepSeek OCR 的架构，保留了 DeepEncoder 和 Mixture-of-Experts（MoE）解码器。虽然总参数量为 30 亿，但实际推理过程中仅激活 5 亿参数。

在编码阶段，Unlimited OCR 采用了两级视觉编码，并在连接处实现了 16 倍的 token 压缩。这意味着原本 1024×1024 像素的 PDF 图像会被压缩成 256 个视觉 token，从根本上减轻了预填充的负担。

在模型训练方面，Unlimited OCR 在 DeepSeek OCR 的基础上进行了额外的 4000 步训练。训练过程中，DeepEncoder 部分被冻结，仅对解码器进行训练。训练使用了约 200 万份文档样本，并在 8 块 A800 GPU 上完成。训练数据的构成中，单页文档和多页文档的比例约为 9:1，多页样本是通过拼接方式生成的。

根据基准测试结果，Unlimited OCR 在 OmniDocBench v1.5 上的综合得分达到了 93.23，超越了 DeepSeek OCR 的 87.01 和 DeepSeek OCR 2 的 89.17。

具体来看，该模型在文本编辑距离方面为 0.038，公式 CDM 得分为 92.61，表格 TEDS 为 90.93，读序编辑距离为 0.045。在 OmniDocBench v1.6 的测试中，Unlimited OCR 的整体得分进一步提升至 93.92。

返回列表