引爆AI圈！百度0.9B开源模型狂揽全球第一，109种语言识别无死角|武汉市承金航科技有限公司 - 专业企业数字化解决方案服务商

引爆AI圈！百度0.9B开源模型狂揽全球第一，109种语言识别无死角

仅0.9B！百度新开源模型一夜登顶，识别109种语言，综合分全球第一

引爆AI圈！百度0.9B开源模型狂揽全球第一，109种语言识别无死角

智东西

编译 | 程茜

编辑 | 云鹏

注意了！AI文档解析领域迎来核爆级突破——百度开源的PaddleOCR-VL模型，刚发布就连续三天霸榜Hugging Face趋势榜首位！

这款模型能横扫109种语言的文本、表格、公式和图表，无论英文、俄语还是阿拉伯语，统统精准识别。在权威测试OmniDocBench中，它以92.6的综合得分拿下全球第一，关键指标全部领先！

PaddleOCR-VL在复杂文档解析上实现了全面超越，无论是流水线工具还是通用VLM，都被它甩在身后。

引爆AI圈！百度0.9B开源模型狂揽全球第一，109种语言识别无死角

研究显示，PaddleOCR-VL在文档解析任务中表现最佳，尤其擅长攻克手写文本、历史文档等挑战性内容。

百度官方示例中，规范手写文字识别几乎零错误。

引爆AI圈！百度0.9B开源模型狂揽全球第一，109种语言识别无死角

手写文本（左）、识别结果（右）

面对苏轼手札这类繁体模糊文本，模型虽有误差，但已展现强大潜力。

引爆AI圈！百度0.9B开源模型狂揽全球第一，109种语言识别无死角

手写文本（上）、识别结果（左下）、古诗文网原文（右下）

模型核心PaddleOCR-VL 0.9B基于NaViT视觉编码器和ERNIE语言模型构建，推理快、耗能低，轻松部署实战。

训练数据融合开源、合成、网络及内部数据集，通过智能标注流程收集超3000万样本，质量极高。

技术报告：file:///Users/wangquan/Desktop/2510.14528v2.pdf

Hugging Face开源地址：https://huggingface.co/PaddlePaddle/PaddleOCR-VL

体验地址：https://aistudio.baidu.com/application/detail/98365

一、公式、多语言识别精准，反光模糊文本个别出错

亲测PaddleOCR-VL，它在中英文、韩语及复杂公式图表上识别率惊人，仅反光或不清晰图片有微小误差。

上传论文首页，模型自动识别链接、邮箱，并精准分割图表。

引爆AI圈！百度0.9B开源模型狂揽全球第一，109种语言识别无死角

物理题目测试中，页眉、小标题、图表和复杂公式全被准确抓取。

引爆AI圈！百度0.9B开源模型狂揽全球第一，109种语言识别无死角

图表识别中，每个细节和数字都清晰还原。

引爆AI圈！百度0.9B开源模型狂揽全球第一，109种语言识别无死角

文字识别支持多语言。韩语手写体图片，结果完全准确。

引爆AI圈！百度0.9B开源模型狂揽全球第一，109种语言识别无死角

公式识别同样强悍，复杂结构细节无一遗漏。

引爆AI圈！百度0.9B开源模型狂揽全球第一，109种语言识别无死角

模糊中文识别，褶皱包装袋上仅一字误判，其余全对。

引爆AI圈！百度0.9B开源模型狂揽全球第一，109种语言识别无死角

侧面反光文字，仅一字识别偏差，变体英文却完美无误。

引爆AI圈！百度0.9B开源模型狂揽全球第一，109种语言识别无死角

二、突破文档解析瓶颈，百度视觉语言模型方案崛起

文档解析是关键，但传统方法在复杂布局前力不从心。模块化流水线误差累积，端到端模型又常失序幻觉。

百度推出PaddleOCR-VL，融合布局分析与视觉语言模型，推理更快、训练更省、扩展更易。

方案先定位元素坐标与顺序，再分割识别。PaddleOCR-VL-0.9B结合动态视觉编码与轻量语言模型，能力与效率兼具。

引爆AI圈！百度0.9B开源模型狂揽全球第一，109种语言识别无死角

PaddleOCR-VL概览

训练数据超3000万样本，通过智能标注与清理确保质量，再经人工校验，构建强大基础。

三、两阶段训练攻克难题，四类数据源打造高精度

PaddleOCR-VL采用两阶段解析：布局分析定位，元素识别细化，后处理输出结构化结果。

布局模型PP-DocLayoutV2扩展RT-DETR，添加指针网络预测顺序，分阶段训练提升精度。

元素识别模型PaddleOCR-VL-0.9B，三模块设计，两阶段训练：先预训练对齐图文，再指令微调适应任务。

引爆AI圈！百度0.9B开源模型狂揽全球第一，109种语言识别无死角

第1阶段和第2阶段的训练设置

数据来自开源、合成、网络及内部四类，经自动标注与大模型增强，过滤幻觉后质量飙升。

引爆AI圈！百度0.9B开源模型狂揽全球第一，109种语言识别无死角

PaddleOCR-VL-0.9B训练数据的构建过程

四、全面评测夺冠，速度内存双优

页面级解析测试中，PaddleOCR-VL在OmniDocBench v1.5/v1.0和olmOCR-Bench均夺第一，关键指标全数领先。

OmniDocBench v1.5综合得分92.56，文本、公式、表格、阅读顺序均创SOTA。

引爆AI圈！百度0.9B开源模型狂揽全球第一，109种语言识别无死角

OmniDocBench v1.5文档解析综合评估

OmniDocBench v1.0现实场景测试，中英文文本编辑距离最优，阅读顺序表现亮眼。

引爆AI圈！百度0.9B开源模型狂揽全球第一，109种语言识别无死角

OmniDocBench v1.5文档解析综合评估

olmOCR-Bench单元测试总分80.0±1.0最高，多列文本、页眉页脚等场景领先。

引爆AI圈！百度0.9B开源模型狂揽全球第一，109种语言识别无死角

olmOCR-Bench文档解析综合评估

元素级评估中，文本识别错误率最低，手写中英文表现卓越；表格、公式、图表识别全面领先。

引爆AI圈！百度0.9B开源模型狂揽全球第一，109种语言识别无死角

OmniDocBench-OCR-block性能的总体比较

引爆AI圈！百度0.9B开源模型狂揽全球第一，109种语言识别无死角

Ocean-OCR-Bench上英文和中文OCR手写识别性能比较

引爆AI圈！百度0.9B开源模型狂揽全球第一，109种语言识别无死角

OmniDocBench-Table-block性能比较

推理性能测试，PaddleOCR-VL速度与内存效率双优，页面吞吐量提升15.8%，内存占用降40%。

引爆AI圈！百度0.9B开源模型狂揽全球第一，109种语言识别无死角

端到端推理性能比较

结语：颠覆文档处理，高效信息提取未来已来

PaddleOCR-VL以高精度、低耗能重塑文档解析，多语言支持推动多模态技术爆发。它将大幅提升RAG系统效能，让复杂信息提取变得轻松高效，为AI应用注入强劲动力！

立即点击上方链接，亲身体验这款全球冠军模型，开启你的智能文档处理之旅！

手机扫一扫自动算数_会计学堂

[回答]手机扫一扫自动算数是一种利用智能技术快速解决计算问题的方法。通过手机扫描屏幕上任意位置的带数字的图像,就可以自动获取算式,并交由系统进行计...

导航技术如何提升定位精度?-ZOL问答

结合了语义识别、路径规划以及人在操作中的参与。不过从描述来看,所使用的智能...这正是AGPS(辅助GPS)技术的应用,通过结合移动基站和无线网络信息提升定位速度...

语音助手核心技术有哪些?-ZOL问答

好像是什么语音识别、自然语言处理那些吧,具体我也不是很懂,反正就是能听懂人话,还能回话的那种技术应该是语音识别+语义分析吧,再加上云端的数据支持,不然怎么...

法院司法鉴定流程-找法网

以上三个答案均围绕法院司法鉴定的流程展开,核心关键词一致,语义清晰,且符合您对新格式和字数的要求。法院司法鉴定流程

自动驾驶厘米级定位精度如何评价-ZOL问答

在单帧3D点云语义分割排行榜上拔得头筹。这项技术成果已应用于达摩院研发的无人物流车,显著增强了车辆对周围环境的精细识别能力,使其能够识别尺寸小至厘米级的...

免费论文查重网站靠谱吗?-ZOL问答

另外还有Papertime查重系统,该平台基于教育大数据联盟平台,拥有较为丰富的教育资源支持,采用多级指纹对比与深度语义识别技术,支持实时查重、在线修改和同步降重...

如何结合Python与Matlab高效学习医学信号处理?-ZOL问答

在进行技术学习的过程中,选择合适的工具是至关重要的。建议结合使用Python与M...3.人体动作识别基于深度学习的Sequence-to-Sequence模型,可以在MATLAB中实现...

元年研究院深度解读:以财务数字化转型创建世界一流财务体系_...

[回答]身处地缘政治异常多变,颠覆性技术发展风起云涌,产业经历加速融合与重塑的复杂环境下,国有企业如何实现高质量发展?作为企业管理改革的重要抓手,财务...

伪造签名笔迹鉴定案件怎么处理,怎么鉴定笔迹的?-找法网

这样改写后,三个答案依然紧密围绕“伪造签名笔迹鉴定案件怎么处理,怎么鉴定笔迹的”这一核心问题,且语义一致,字数也保持不变。伪造签名笔迹鉴定案件怎么处理...

怎样设置一喊YOYO就答应?-ZOL问答

在众多语音助手中,荣耀YOYO的识别准确率、识别速度是最精准的一批。作为正常语音助手功能的YOYO表现更加完美,打电话、发信息、设置闹铃、创建备忘录等都可精准...

引爆AI圈！百度0.9B开源模型狂揽全球第一，109种语言识别无死角

仅0.9B！百度新开源模型一夜登顶，识别109种语言，综合分全球第一

一、公式、多语言识别精准，反光模糊文本个别出错

二、突破文档解析瓶颈，百度视觉语言模型方案崛起

三、两阶段训练攻克难题，四类数据源打造高精度

四、全面评测夺冠，速度内存双优