【功能建议】希望WPS PDF新增离线OCR功能，完善无网络场景使用体验

　　作为WPS Office的长期用户，我高度认可产品的办公生态体验，但WPS PDF的图片文字识别（OCR）功能存在明显短板——依赖云端识别导致无法离线使用，严重影响无网络场景的办公效率，特此建议新增离线OCR功能。

一、功能现状：OCR依赖云端，离线场景完全失效

　　当前WPS PDF的OCR功能仅支持云端识别，无网络环境下完全无法使用，这给高频处理扫描件、纸质文档数字化的用户带来诸多困扰：出差时在高铁上需编辑扫描版合同、户外办公时信号不稳定想提取图片PDF关键信息、身处无网络环境需紧急修改扫描件等场景中，云端OCR均无法响应，只能等待联网后操作，严重耽误工作进度。

　　社区中多个用户反馈，曾因无网络无法使用WPS PDF的OCR功能而临时改用其他工具，长期来看已出现用户流失情况——我身边有工程监理同事，因工地现场无网络只能先用Adobe Reader临时查看扫描版验收文件，后续编辑时逐渐转向支持离线OCR的Adobe Acrobat或福昕高级PDF编辑器，最终成为竞品用户。

二、竞品对比：主流工具均支持本地OCR，WPS具备技术基础

　　对比行业主流PDF编辑器，本地OCR已成为专业级产品的标配功能，且不同产品均有明确的离线引擎支撑，这也决定了其市场竞争力：Adobe Acrobat Pro内置IRISOCR引擎，凭借该核心优势占据高端市场；福昕高级PDF编辑器内置ABBYY文字识别引擎，PDF X-Change同样内置ABBYY引擎，二者均能在离线状态下高效处理扫描件；万兴PDF、UPDF需额外下载ABBYY引擎后实现离线OCR，在中高端市场形成竞争；甚至极光PDF这类国产小型编辑器，也通过额外下载PaddleOCR引擎实现了离线文字识别。据《21款PDF编辑器大横评》数据，这类支持本地OCR的工具在赛道中占据重要份额，其中“离线处理能力”是用户选择专业PDF工具的关键指标——不少企业用户明确反馈“若WPS支持离线扫描件识别，会优先选择WPS全生态方案”，可见这是WPS PDF抢占企业级市场的核心突破口。

　　值得注意的是，金山办公并非缺乏技术支撑——其与华中科技大学联合研发的MonkeyOCR系列模型，已在文档解析领域达到全球领先水平，完全具备集成至WPS PDF本地的技术条件，核心优势可从技术架构、性能指标、功能特性三大维度清晰呈现，且在多模态处理、开源属性、轻量部署上形成差异化竞争力：

　　（1）技术架构：原生支持多模态处理，破解复杂场景痛点

　　MonkeyOCR v1.5采用“视觉-语言联合建模+专项解析”的两阶段Pipeline设计，从底层架构实现多模态内容的全类型覆盖：

第一阶段：通过视觉-语言模型（VLM）同步完成10+类文档元素的布局检测与逻辑排序，可精准区分文本、表格、公式、图像、手写体等元素，即便面对多栏排版、图文嵌套、跨页表格等复杂场景，也能锁定正确阅读顺序，避免元素识别混乱；

第二阶段：针对不同模态元素专项处理，表格输出HTML结构化数据（支持直接编辑）、公式生成LaTeX可编辑格式、图像保留标注信息、手写体优化识别算法，真正实现“一次识别、全类型可用”，解决传统OCR仅能处理纯文本的局限。

　　（2）性能指标：行业顶尖水平，兼顾精度与效率

　　在全球权威文档解析评测OmniDocBench v1.5中，MonkeyOCR v1.5以93.01分斩获综合性能全球第一，核心指标优势显著：

识别精度：普通表格解析准确率95%，复杂嵌套表格（含多层单元格、跨页拼接）准确率突破90%，公式识别精度较传统OCR工具提升15%，中文/英文手写体识别准确率超98%；

处理效率：3B参数的轻量版本每秒可处理0.84页多文档，是Qwen2.5 VL-72B（0.12页/秒）的7倍，远超Adobe Acrobat Pro（0.45页/秒），批量处理扫描件时效率差距更明显；

部署门槛：仅需单张NVIDIA 3090 GPU即可高效运行，无需高额算力投入，适配多数企业及个人设备。

　　（3）功能特性：开源赋能+轻量设计，落地门槛极低

　　MonkeyOCR在功能适配性上完全匹配WPS PDF的本地集成需求，尤其突出开源与轻量优势：

开源属性：已在GitHub开源仓库（https://github.com/Yuliang-Liu/MonkeyOCR）开放核心代码，提供HuggingFace模型库及在线Demo，可通过开发者社区快速迭代优化，降低集成后的调试成本；

轻量部署：核心引擎包体经压缩后可控制在200MB以内（仅为Adobe Acrobat内置IRISOCR引擎的1/5），无需占用过多设备存储空间，完美支撑“按需下载”模式；

生态兼容：支持中文、英文等多语言识别，可直接输出Markdown、JSON、HTML等结构化格式，无需二次转换即可对接企业OA系统、科研文献管理工具，与WPS现有办公生态无缝衔接。

三、功能建议：本地集成+灵活适配，兼顾实用性与轻量性

新增离线OCR功能：将自研MonkeyOCR引擎集成至WPS PDF本地，支持无网络环境下识别中文、英文等多语言文字，重点优化中文手写体、财务报表、工程图纸标注等行业专用场景的识别精度；

保留双模式切换：沿用现有云端OCR选项，允许用户根据网络状况自由切换（联网用云端提效、离线用本地保障可用性），并支持“离线识别结果联网后自动同步”，解决多设备协作需求；

采用按需下载模式：依托MonkeyOCR的轻量优势（核心包体≤200MB），提供“离线OCR引擎按需下载”选项，默认不占用额外存储空间，用户可根据需求自主安装，兼顾轻量性与核心功能覆盖。

四、战略意义：补全短板，抢占增量市场

　　新增离线OCR能为WPS PDF带来三重核心价值：一是挽回流失用户，凭借MonkeyOCR的多模态处理能力（覆盖表格、公式、手写体等场景），精准吸引因离线需求转向Adobe、福昕的专业用户，助力提升市场份额；二是突破下沉市场，依托200MB以内的轻量包体，适配三四线企业及偏远地区事业单位的低配设备与网络薄弱场景，抢占未被充分挖掘的增量市场份额；三是构建差异化壁垒，相较于福昕等依赖第三方闭源引擎的国产软件，MonkeyOCR的开源属性可快速响应开发者与企业的定制化需求，结合多模态处理优势适配教育（试卷扫描）、医疗（病历识别）等垂直场景，形成“轻量部署+开源迭代+多模态覆盖”的独特竞争力，进而带动WPS全办公生态的市场份额提升。

反馈直通车

3天前美国

6 +1