PP-OCRv6:1.5MB 的模型,重新定义了“OCR 该怎么做”

一个 1.5MB 的模型,能直接塞进浏览器里跑;单图最快 97 毫秒出结果;逐字识别的准确率,居然反超了 GPT-5.5、Gemini-3.1-Pro 和 235B 参数的 Qwen3-VL。这不是标题党,这是 PP-OCRv6 交出的真实成绩单。

PP-OCRv6:1.5MB 的模型,重新定义了“OCR 该怎么做”

PP-OCRv6 重新定义了「OCR 该怎么做」

这两年大家一窝蜂往大模型挤,仿佛参数越多越正义。但 OCR 是一类边界清晰的垂直活——要的是「逐字精确」,不是「脑补润色」。 

PP-OCRv6 用一个仅 34.5M 参数(注意,是 M 不是 B)的小模型,把这条路的性价比做到了极致:又快、又准、又省,还能跑在端上

它给我们最大的提醒是——不是所有任务都值得上大模型。

亮点一:能在浏览器里直接跑

以前你想给一个 Web 应用加 OCR,基本只有三条路:

方案 代价
调云 API 按量付费 + 图片必须上传
自己搭服务器 要钱、要运维
干脆不做 ……那就不做

PP-OCRv6 的 Tiny 版只有 1.5MB,可以直接在用户浏览器本地跑。这带来了三个实打实的好处:

  1. 数据隐私零泄露 —— 图片全程不出本地,完全保护用户隐私
  2. 服务器成本归零 —— 多少用户都不怕,没有流量和算力账单
  3. 97 毫秒出结果 —— 体验跟原生功能一样,用户无感

据说它是目前全球唯一能在浏览器里跑的高精度 OCR

 一个背景:PP-OCR 这条线已经是百度文心多模态能力的重要一环——相当于把文心的「眼睛」做小、做快,塞进了浏览器。对独立开发者而言,这几乎等于白捡一个能力,也顺手给 Agent 装上了一双眼睛。

亮点二:解决了大模型做 OCR 的「老毛病」——脑补

你让大模型读一张图,它经常自作主张:

  • 把模糊的字「猜」一个
  • 把它觉得是「错别字」的字顺手改对
  • 甚至凭空补几个图里根本没有的字 

平时聊天无所谓。但识别发票、证件、合同、单据时,错一个字就是事故

PP-OCRv6 在精确匹配上的表现:

模型 精确匹配率
PP-OCRv6 93.2%
Qwen3-VL-235B 80.6%

在公开文本检测与识别基准上,它分别拿到 86.2 / 83.2 的成绩,双双刷新上一代 PP-OCRv5 的纪录,综合性能按公开评测排到全球第一。 

一个反直觉的问题:小模型凭什么干翻大模型? 

34.5M 参数,凭什么干得过 235B 的大模型?

答案在于——思路跟「堆参数」正好反着来

  • 检测和识别共用一套骨干网络
  • 每个环节单独「抠轻、抠快」
  • 而不是硬塞一个更大的脑子去暴力求解

这是一种工程哲学上的胜利:专精、协作、极致优化,胜过「一招通用打天下」。

三档模型,一个模型通吃全场景

PP-OCRv6 提供三档模型,按部署场景灵活挑选:

版本 体积 适用场景
Tiny 1.5M 浏览器 / 端侧设备
Small 7.7M 手机 / 移动端
Medium 34.5M 服务器 / 云端

更重要的是——一个模型就能支持 50 多种语言(中文、英文、日文及 46 种拉丁语系),无需为不同语种反复切换模型。

性能数字一览 

  • 相比 PP-OCRv5:检测精度提升 4.6%,识别精度提升 5.1%
  • CPU OpenVINO 推理加速 5.2×
  • Tiny 档在 Apple M4 上加速 6.1×
  • A100 上单图推理仅需 0.13 秒 

在专业场景上,数码显示屏、点阵字符、轮胎印字、工业字符等传统 VLM 难以覆盖的领域,PP-OCRv6 的识别能力都有大幅提升。

你可能早就在用它了 

PP-OCR 不是新面孔。它背后的 PaddleOCR 项目在 GitHub 已经拿下 8.2 万+ Star,超过了 Google 的 Tesseract——是当之无愧的业界标杆。

很多你可能用过的工具,背后都集成了 PaddleOCR: 

  • UimiOCR —— 离线 OCR 工具
  • MinerU —— PDF 解析利器
  • Dify / RAGFlow / Cherry Studio / Pathway —— 顶级 RAG 与 Agent 项目的核心基础组件

PaddleOCR 把 PDF 文档和图像,转换为结构化、LLM 友好的数据格式(JSON / Markdown),是构建智能 RAG 和 Agentic 应用的核心底座。

在哪里能拿到它? 

全部开源,随用随取:

 支持多种硬件后端:NVIDIA GPU、Intel CPU、昆仑芯 XPU 以及多种 AI 加速器,一键部署。