引爆AI圈!百度0.9B开源模型狂揽全球第一,109种语言识别无死角

mysmile 5个月前 (12-24) 产品中心 125 0
引爆AI圈!百度0.9B开源模型狂揽全球第一,109种语言识别无死角

仅0.9B!百度新开源模型一夜登顶,识别109种语言,综合分全球第一

引爆AI圈!百度0.9B开源模型狂揽全球第一,109种语言识别无死角

智东西

编译 | 程茜

编辑 | 云鹏

注意了!AI文档解析领域迎来核爆级突破——百度开源的PaddleOCR-VL模型,刚发布就连续三天霸榜Hugging Face趋势榜首位!

这款模型能横扫109种语言的文本、表格、公式和图表,无论英文、俄语还是阿拉伯语,统统精准识别。在权威测试OmniDocBench中,它以92.6的综合得分拿下全球第一,关键指标全部领先!

PaddleOCR-VL在复杂文档解析上实现了全面超越,无论是流水线工具还是通用VLM,都被它甩在身后。

引爆AI圈!百度0.9B开源模型狂揽全球第一,109种语言识别无死角

研究显示,PaddleOCR-VL在文档解析任务中表现最佳,尤其擅长攻克手写文本、历史文档等挑战性内容。

百度官方示例中,规范手写文字识别几乎零错误。

引爆AI圈!百度0.9B开源模型狂揽全球第一,109种语言识别无死角

手写文本(左)、识别结果(右)

面对苏轼手札这类繁体模糊文本,模型虽有误差,但已展现强大潜力。

引爆AI圈!百度0.9B开源模型狂揽全球第一,109种语言识别无死角

手写文本(上)、识别结果(左下)、古诗文网原文(右下)

模型核心PaddleOCR-VL 0.9B基于NaViT视觉编码器和ERNIE语言模型构建,推理快、耗能低,轻松部署实战。

训练数据融合开源、合成、网络及内部数据集,通过智能标注流程收集超3000万样本,质量极高。

技术报告:file:///Users/wangquan/Desktop/2510.14528v2.pdf

Hugging Face开源地址:https://huggingface.co/PaddlePaddle/PaddleOCR-VL

体验地址:https://aistudio.baidu.com/application/detail/98365

一、公式、多语言识别精准,反光模糊文本个别出错

亲测PaddleOCR-VL,它在中英文、韩语及复杂公式图表上识别率惊人,仅反光或不清晰图片有微小误差。

上传论文首页,模型自动识别链接、邮箱,并精准分割图表。

引爆AI圈!百度0.9B开源模型狂揽全球第一,109种语言识别无死角

物理题目测试中,页眉、小标题、图表和复杂公式全被准确抓取。

引爆AI圈!百度0.9B开源模型狂揽全球第一,109种语言识别无死角

图表识别中,每个细节和数字都清晰还原。

引爆AI圈!百度0.9B开源模型狂揽全球第一,109种语言识别无死角

文字识别支持多语言。韩语手写体图片,结果完全准确。

引爆AI圈!百度0.9B开源模型狂揽全球第一,109种语言识别无死角

公式识别同样强悍,复杂结构细节无一遗漏。

引爆AI圈!百度0.9B开源模型狂揽全球第一,109种语言识别无死角

模糊中文识别,褶皱包装袋上仅一字误判,其余全对。

引爆AI圈!百度0.9B开源模型狂揽全球第一,109种语言识别无死角

侧面反光文字,仅一字识别偏差,变体英文却完美无误。

引爆AI圈!百度0.9B开源模型狂揽全球第一,109种语言识别无死角

二、突破文档解析瓶颈,百度视觉语言模型方案崛起

文档解析是关键,但传统方法在复杂布局前力不从心。模块化流水线误差累积,端到端模型又常失序幻觉。

百度推出PaddleOCR-VL,融合布局分析与视觉语言模型,推理更快、训练更省、扩展更易。

方案先定位元素坐标与顺序,再分割识别。PaddleOCR-VL-0.9B结合动态视觉编码与轻量语言模型,能力与效率兼具。

引爆AI圈!百度0.9B开源模型狂揽全球第一,109种语言识别无死角

PaddleOCR-VL概览

训练数据超3000万样本,通过智能标注与清理确保质量,再经人工校验,构建强大基础。

三、两阶段训练攻克难题,四类数据源打造高精度

PaddleOCR-VL采用两阶段解析:布局分析定位,元素识别细化,后处理输出结构化结果。

布局模型PP-DocLayoutV2扩展RT-DETR,添加指针网络预测顺序,分阶段训练提升精度。

元素识别模型PaddleOCR-VL-0.9B,三模块设计,两阶段训练:先预训练对齐图文,再指令微调适应任务。

引爆AI圈!百度0.9B开源模型狂揽全球第一,109种语言识别无死角

第1阶段和第2阶段的训练设置

数据来自开源、合成、网络及内部四类,经自动标注与大模型增强,过滤幻觉后质量飙升。

引爆AI圈!百度0.9B开源模型狂揽全球第一,109种语言识别无死角

PaddleOCR-VL-0.9B训练数据的构建过程

四、全面评测夺冠,速度内存双优

页面级解析测试中,PaddleOCR-VL在OmniDocBench v1.5/v1.0和olmOCR-Bench均夺第一,关键指标全数领先。

OmniDocBench v1.5综合得分92.56,文本、公式、表格、阅读顺序均创SOTA。

引爆AI圈!百度0.9B开源模型狂揽全球第一,109种语言识别无死角

OmniDocBench v1.5文档解析综合评估

OmniDocBench v1.0现实场景测试,中英文文本编辑距离最优,阅读顺序表现亮眼。

引爆AI圈!百度0.9B开源模型狂揽全球第一,109种语言识别无死角

OmniDocBench v1.5文档解析综合评估

olmOCR-Bench单元测试总分80.0±1.0最高,多列文本、页眉页脚等场景领先。

引爆AI圈!百度0.9B开源模型狂揽全球第一,109种语言识别无死角

olmOCR-Bench文档解析综合评估

元素级评估中,文本识别错误率最低,手写中英文表现卓越;表格、公式、图表识别全面领先。

引爆AI圈!百度0.9B开源模型狂揽全球第一,109种语言识别无死角

OmniDocBench-OCR-block性能的总体比较

引爆AI圈!百度0.9B开源模型狂揽全球第一,109种语言识别无死角

Ocean-OCR-Bench上英文和中文OCR手写识别性能比较

引爆AI圈!百度0.9B开源模型狂揽全球第一,109种语言识别无死角

OmniDocBench-Table-block性能比较

推理性能测试,PaddleOCR-VL速度与内存效率双优,页面吞吐量提升15.8%,内存占用降40%。

引爆AI圈!百度0.9B开源模型狂揽全球第一,109种语言识别无死角

端到端推理性能比较

结语:颠覆文档处理,高效信息提取未来已来

PaddleOCR-VL以高精度、低耗能重塑文档解析,多语言支持推动多模态技术爆发。它将大幅提升RAG系统效能,让复杂信息提取变得轻松高效,为AI应用注入强劲动力!

立即点击上方链接,亲身体验这款全球冠军模型,开启你的智能文档处理之旅!

相关问答

手机扫一扫自动算数_会计学堂

[回答]手机扫一扫自动算数是一种利用智能技术快速解决计算问题的方法。通过手机扫描屏幕上任意位置的带数字的图像,就可以自动获取算式,并交由系统进行计...

导航技术如何提升定位精度?-ZOL问答

结合了语义识别、路径规划以及人在操作中的参与。不过从描述来看,所使用的智能...这正是AGPS(辅助GPS)技术的应用,通过结合移动基站和无线网络信息提升定位速度...

语音助手核心技术有哪些?-ZOL问答

好像是什么语音识别、自然语言处理那些吧,具体我也不是很懂,反正就是能听懂人话,还能回话的那种技术应该是语音识别+语义分析吧,再加上云端的数据支持,不然怎么...

法院司法鉴定流程-找法网

以上三个答案均围绕法院司法鉴定的流程展开,核心关键词一致,语义清晰,且符合您对新格式和字数的要求。法院司法鉴定流程

自动驾驶厘米级定位精度如何评价-ZOL问答

在单帧3D点云语义分割排行榜上拔得头筹。这项技术成果已应用于达摩院研发的无人物流车,显著增强了车辆对周围环境的精细识别能力,使其能够识别尺寸小至厘米级的...

免费论文查重网站靠谱吗?-ZOL问答

另外还有Papertime查重系统,该平台基于教育大数据联盟平台,拥有较为丰富的教育资源支持,采用多级指纹对比与深度语义识别技术,支持实时查重、在线修改和同步降重...

如何结合Python与Matlab高效学习医学信号处理?-ZOL问答

在进行技术学习的过程中,选择合适的工具是至关重要的。建议结合使用Python与M...3.人体动作识别基于深度学习的Sequence-to-Sequence模型,可以在MATLAB中实现...

元年研究院深度解读:以财务数字化转型创建世界一流财务体系_...

[回答]身处地缘政治异常多变,颠覆性技术发展风起云涌,产业经历加速融合与重塑的复杂环境下,国有企业如何实现高质量发展?作为企业管理改革的重要抓手,财务...

伪造签名笔迹鉴定案件怎么处理,怎么鉴定笔迹的?-找法网

这样改写后,三个答案依然紧密围绕“伪造签名笔迹鉴定案件怎么处理,怎么鉴定笔迹的”这一核心问题,且语义一致,字数也保持不变。伪造签名笔迹鉴定案件怎么处理...

怎样设置一喊YOYO就答应?-ZOL问答

在众多语音助手中,荣耀YOYO的识别准确率、识别速度是最精准的一批。作为正常语音助手功能的YOYO表现更加完美,打电话、发信息、设置闹铃、创建备忘录等都可精准...

扫描二维码

手机扫一扫添加微信