新闻中心
公司新闻
行业动态
首页 / 新闻中心 / 公司新闻

百度开源 Unlimited OCR 模型:基于 DeepSeek OCR,解析文档告别 AI 越生成越慢 - 2026世界杯

2026-06-25 来源:上海唯星 浏览量:666

百度于 6 月 22 日发布了 Unlimited OCR 模型,该模型拥有 30 亿总参数,但在推理时仅会调用 5 亿参数。此举旨在解决端到端 OCR 模型在处理长文档时,随着生成内容增多而导致速度下降的问题。

端到端 OCR 模型是一种集成化的神经网络架构,它能够同时完成图像中文本的检测和字符的识别,无需像传统方法那样先框选文字再进行识别,从而减少了信息损失和计算上的重复。

现有的端到端 OCR 模型在生成每个 token 时,都会增加 KV cache 的占用,这会不断累积显存消耗和延迟,最终让用户感觉 AI 在处理多页文档时速度越来越慢。

Unlimited OCR 模型沿用了 DeepSeek OCR 的架构,保留了 DeepEncoder 和 Mixture-of-Experts(MoE)解码器。虽然总参数量为 30 亿,但实际推理过程中仅激活 5 亿参数。

在编码阶段,Unlimited OCR 采用了两级视觉编码,并在连接处实现了 16 倍的 token 压缩。这意味着原本 1024×1024 像素的 PDF 图像会被压缩成 256 个视觉 token,从根本上减轻了预填充的负担。

在模型训练方面,Unlimited OCR 在 DeepSeek OCR 的基础上进行了额外的 4000 步训练。训练过程中,DeepEncoder 部分被冻结,仅对解码器进行训练。训练使用了约 200 万份文档样本,并在 8 块 A800 GPU 上完成。训练数据的构成中,单页文档和多页文档的比例约为 9:1,多页样本是通过拼接方式生成的。

根据基准测试结果,Unlimited OCR 在 OmniDocBench v1.5 上的综合得分达到了 93.23,超越了 DeepSeek OCR 的 87.01 和 DeepSeek OCR 2 的 89.17。

具体来看,该模型在文本编辑距离方面为 0.038,公式 CDM 得分为 92.61,表格 TEDS 为 90.93,读序编辑距离为 0.045。在 OmniDocBench v1.6 的测试中,Unlimited OCR 的整体得分进一步提升至 93.92。

世界杯科技有限公司通过专业、及时的数据分析,为全球足球爱好者带来最前沿的2026世界杯赛事洞察。电话:+86 159 8569 1529邮箱:[email protected]微信:globeworldcu_710营业时间:周一至周日 8:00–19:00杭州市西湖区文三路46号