百度网盘正式发布扫描SKILL,希望WPS尽快跟进

快乐小子新
快乐小子新 Lv.2 潜力创作者

Lv.2潜力创作者

一、引言

文档扫描能力正从独立的应用工具演变为智能体技能(Skill)的可组合模块。用户无需打开专用应用,仅通过自然语言描述即可调用扫描处理能力,实现与文档编辑、知识管理等办公流程的无缝衔接。近期,百度网盘团队(baidunetdiskaibot)通过 ClawHub 技能市场发布了一款文档扫描技能——baidu-drive-scan,将百度网盘内部的智能扫描处理能力封装为 AI Agent 可调用的标准化技能。

二、百度网盘扫描技能概述

2.1 来源与定位

该技能将百度网盘内部的智能图像扫描处理服务封装为标准化的 Agent Skill,可在AI Agent 中调用。该技能将文档扫描的图像后处理能力从百度网盘应用内抽离出来,以标准化接口的形式开放给 AI Agent 生态,使得智能体能够理解用户意图并自动调用相应的图像处理能力。

2.2 技术架构

该技能采用经典的 CLI 分层架构设计,意图理解与 API 调用完全解耦,安全校验集中在中间层,便于独立升级和维护。

用户自然语言意图
       │
       ▼
┌─────────────────────┐
│  SKILL.md (意图路由) │  ← LLM 语义匹配,确定 method 值
└─────────┬───────────┘
          │
          ▼
┌─────────────────────┐
│ scan_filter.py      │  ← 环境检查 → 图片校验 → 子进程调用 → 结果增强
│  (主入口 / 安全层)  │
└─────────┬───────────┘
          │
          ▼
┌─────────────────────┐
│   do_scan.py        │  ← 组装请求体,调用百度网盘扫描 API
│  (API 调用执行层)   │
└─────────┬───────────┘
          │
          ▼
┌─────────────────────┐
│ 百度网盘扫描服务    │  ← https://pan.baidu.com/apaas/scan/filter
│  (云端图像处理)     │
└─────────────────────┘

2.3 文件结构

文件

职责

SKILL.md

意图定义、触发规则、执行流程规范

scripts/scan_filter.py

主入口:环境检查、图片格式与大小校验、子进程调度、结果增强

scripts/do_scan.py

下游执行:请求体组装、HTTP 调用

scripts/config.py

配置管理:从环境变量读取 API Key 与默认参数

scripts/file_saver.py

工具函数:Base64 图片解码与本地持久化

三、功能

baidu-drive-scan 提供了九种文档图像处理模式,由 LLM 根据用户自然语言意图匹配后传入。

3.1 内容清除类

内容清除类处理旨在从文档图像中移除特定的叠加信息,保留原始文档内容。

去手写

移除文档图像中已填写的手写笔迹、批注、涂鸦等内容,还原为空白或仅含印刷文字的干净文档。典型适用场景包括:清除试卷上的手写答案以便重复使用、移除文档上的手写批注保留打印原文。该能力对印刷文字与手写内容的区分精度直接决定了输出质量。

去水印

在不损伤背景和整体构图的前提下,精准擦除图片中的水印、Logo、时间戳、角标等附加标记。该能力的核心技术挑战在于水印区域的图像修复——需要在移除标记的同时,生成与周围背景视觉一致的填充内容。

去阴影

消除因拍摄角度、手部遮挡、光线不均等原因产生的阴影、暗角和明暗斑块,统一图像亮度。该能力适用于手机拍摄文档时常见的光照不均匀问题。

去屏纹

针对翻拍屏幕、显示器或投影产生的摩尔纹、彩色条纹、反光等干扰进行消除。该模式的技术难点在于屏纹通常具有高频周期性特征,需要在去除干扰的同时保持文字和图像的清晰度。

3.2 画质增强类

画质增强类处理旨在提升文档图像的整体视觉质量。

清晰化

针对存在模糊、低分辨率、昏暗等画质缺陷的图像,执行去模糊、超分辨率重建、亮度与对比度增强。该能力仅在用户明确反馈图像存在画质问题时触发,不作为通用扫描意图的默认处理。

证件票据增强

专门针对证件(身份证、护照、驾驶证、银行卡等)和票据(发票、收据、合同、名片等)照片进行画质优化,使文字与关键信息更加清晰。该模式在通用增强的基础上,针对证件票据的版式特征做了专门的算法优化。

3.3 格式转换类

黑白处理/去底色

将带有彩色背景、红头文件、灰底或复杂底色的文档转换为纯白背景搭配黑色文字的清晰版本。该能力对于公文处理、档案电子化等需要统一格式的场景具有较高的实用价值。

3.4 几何矫正类

检测矫正

对拍摄倾斜、透视变形的文档图像进行自动检测与几何矫正,裁剪多余背景边缘,输出规整的矩形文档图像。该能力仅执行几何变换,不包含画质增强处理,适用于后续需要进一步 OCR 识别或打印输出的场景。

3.5 综合处理类

扫描增强

作为默认的兜底处理模式,当用户的意图不匹配上述任何具体场景时触发。该模式执行综合性的文档优化处理,适用于用户仅表达"扫描处理""优化文档""扫成电子版"等通用意图的场景。

3.6 意图路由机制

该技能的意图匹配采用优先级顺序匹配策略:LLM 按照技能文档中定义的九个意图描述,从上到下逐一匹配用户输入,命中第一个即停止。这种设计确保了意图的确定性和可预测性,避免了多意图歧义问题。

四、技术架构与安全设计

4.1 请求链路

完整的请求处理链路如下:

  1. 意图解析:LLM 读取 SKILL.md 中的意图列表,根据用户自然语言输入匹配对应的 method 标识

  1. 环境校验:scan_filter.py 检查 BDPAN_API_KEY 环境变量是否已配置

  1. 图片校验:通过 stdin 读取二进制图片数据,执行格式魔数检测(支持 JPG/PNG/GIF/BMP/WebP)和大小校验(上限 5MB)

  1. API 调用:do_scan.py 将 Base64 编码的图片和 method 参数组装为 JSON 请求体,通过 HTTPS POST 发送至百度网盘扫描服务端点

  1. 结果处理:服务端返回处理后的 Base64 图片,scan_filter.py 自动解码并保存为本地临时文件

4.2 鉴权机制

API 通过 URL 查询参数 api_key 传递鉴权令牌,令牌存储于环境变量 BDPAN_API_KEY 中。这种设计将敏感凭证与命令行参数隔离,降低了凭证泄露的风险。技能文档明确要求禁止在终端明文输出或分享 API Key。

4.3 安全策略

该技能在安全设计方面体现了多层次防护思路:

安全维度

具体措施

凭据安全

API Key 通过环境变量传递,禁止命令行参数明文暴露

输入校验

图片格式通过二进制魔数检测(非后缀名判断),防止格式伪装

大小限制

单张图片上限 5MB,防止超大载荷导致服务异常

注入防护

子进程调用使用列表传参(subprocess.run 的列表模式),避免 shell 注入

参数约束

method 值限定为 1-9 的整数白名单,防止非法参数注入

传输安全

Base64 图片数据通过 stdin 管道传递至子进程,避免命令行参数长度溢出(ARG_MAX 限制)

隐私声明

技能文档明确告知用户图片将被发送至百度网盘内部服务处理,服务端不永久保存

五、与 WPS 灵犀的集成实践

5.1 安装部署

通过 ClawHub CLI 一键安装:

clawhub install baidu-drive-scan --dir <技能目录> --force

安装完成后,技能目录包含 SKILL.md、_meta.json 及 scripts 子目录。ClawHub CLI 自动创建 .clawhub 目录用于版本管理。

5.2 环境配置

安装后需配置 API Key 环境变量:

# Linux / macOS
export BDPAN_API_KEY="your_api_key_here"

# Windows (持久化)
setx BDPAN_API_KEY "your_api_key_here"

API Key 通过百度网盘扫描技能的官方页面获取。配置完成后,AI Agent 在每次会话中即可自动读取该环境变量完成鉴权。

5.3 使用流程

在 WPS 灵犀中,用户仅需以自然语言描述需求,系统将自动完成意图匹配和参数传递:

  1. 用户输入:"把这张试卷上的手写答案去掉"

  1. LLM 匹配意图"去手写",确定 method=3

  1. 调用 scan_filter.py,传入图片和 method 参数

  1. 服务端处理后返回清洁图像,自动保存至本地

整个流程对用户透明,无需手动指定处理模式或操作命令行。

六、建议

6.1 功能对标

WPS 原生扫描 SKILL 应至少覆盖以下核心能力:

能力维度

百度网盘扫描技能

WPS 建议方向

内容清除

去手写、去水印、去阴影、去屏纹

同等覆盖,并增加去褶皱、去折痕等物理文档常见缺陷处理

画质增强

清晰化、证件票据增强

在通用增强基础上,增加手写体增强、印章增强等场景化优化

格式转换

黑白处理/去底色

增加灰度化、二值化(自适应阈值)、色彩校正等更多格式选项

几何矫正

检测矫正

增加多页自动分割、批量矫正等效率型功能

OCR 识别

未提供

集成 WPS OCR 能力,实现扫描 + 识别的一体化流程

6.2 差异化方向

WPS 在文档处理领域拥有数十年的技术积累,原生扫描 SKILL 可以在以下方向构建差异化优势:

文档理解深度集成

百度网盘扫描技能仅处理图像层面的增强,不具备对文档内容的语义理解。WPS 可以将扫描能力与文档结构识别深度融合——扫描后自动识别标题、正文、表格、图片等文档元素,输出可直接编辑的结构化文档,而非单纯的图像处理结果。

Office 原生工作流闭环

扫描 SKILL 与 WPS 的文档编辑、PDF 处理、表格管理等能力形成闭环。用户可以在一次对话中完成"扫描证件 → 提取信息 → 填入表格 → 生成报告"的完整工作流,无需在不同应用之间切换。

本地化与隐私保护

百度网盘扫描技能依赖云端 API 处理,图片需要上传至百度服务器。WPS 可以提供本地模型推理方案,对于涉及商业机密、个人隐私的敏感文档,用户可选择本地处理模式,从根本上消除数据外泄风险。

多语言与多版式支持

百度网盘扫描技能主要面向中文文档场景。WPS 作为国际化办公套件,原生扫描 SKILL 可以从设计之初即支持多语言(中、英、日、韩等)和多版式(A4、Letter、B5 等)的文档处理,服务更广泛的用户群体。

6.3 生态价值

推出原生扫描 SKILL 对 WPS 生态的意义不仅限于功能补全,更在于生态位的战略性布局:

  • 技能市场供给:作为 WPS 官方技能,可以提升 WPS 灵犀技能市场的供给侧质量,为用户提供开箱即用的高质量官方技能选择

  • 开发者示范:为第三方开发者提供技能开发的最佳实践参考,推动 WPS 灵犀技能生态的规范化发展

  • AI Agent 能力边界拓展:将传统的图像处理能力纳入 Agent 的工具集,拓展 AI Agent 在文档处理场景的能力边界

七、结语

baidu-drive-scan 技能的出现表明,文档扫描能力正在从独立应用向 AI Agent 可组合技能的方向演进。该技能在架构设计上体现了良好的分层解耦思想,在安全设计上覆盖了凭据管理、输入校验、注入防护等多个维度,在功能覆盖上提供了九种文档图像处理模式,具备一定的实用价值。

然而,该技能也存在明显的局限性:依赖百度网盘云端 API、不支持 OCR 识别、不支持批量处理、缺乏与文档编辑流程的深度集成。这些局限性恰恰为 WPS 推出原生扫描 SKILL 留下了充足的差异化空间。

WPS 在文档处理领域拥有深厚的技术积累和庞大的用户基础。通过将扫描能力封装为标准化技能,并与 WPS 的文档编辑、OCR、PDF 处理等核心能力深度整合,WPS 有望在 AI Agent 办公场景中构建具有显著竞争优势的原生扫描解决方案。

广东省
浏览 853
收藏
5
分享
5 +1
1
+1
全部评论 1
 
WPS反馈小助理小雅
WPS反馈小助理小雅

WPS社区反馈员

您好 感谢您的详细建议,关于您的使用场景和使用诉求,您反馈的问题均已详情记录,这边会提交反馈给技术团队小伙伴进行评估优化,感谢您的理解与支持。
· 广东省
1
回复