问百度网盘正式发布扫描SKILL，希望WPS尽快跟进

Lv.2潜力创作者

一、引言

文档扫描能力正从独立的应用工具演变为智能体技能（Skill）的可组合模块。用户无需打开专用应用，仅通过自然语言描述即可调用扫描处理能力，实现与文档编辑、知识管理等办公流程的无缝衔接。近期，百度网盘团队（baidunetdiskaibot）通过 ClawHub 技能市场发布了一款文档扫描技能——baidu-drive-scan，将百度网盘内部的智能扫描处理能力封装为 AI Agent 可调用的标准化技能。

二、百度网盘扫描技能概述

2.1 来源与定位

该技能将百度网盘内部的智能图像扫描处理服务封装为标准化的 Agent Skill，可在AI Agent 中调用。该技能将文档扫描的图像后处理能力从百度网盘应用内抽离出来，以标准化接口的形式开放给 AI Agent 生态，使得智能体能够理解用户意图并自动调用相应的图像处理能力。

2.2 技术架构

该技能采用经典的 CLI 分层架构设计，意图理解与 API 调用完全解耦，安全校验集中在中间层，便于独立升级和维护。

用户自然语言意图
       │
       ▼
┌─────────────────────┐
│  SKILL.md (意图路由) │  ← LLM 语义匹配，确定 method 值
└─────────┬───────────┘
          │
          ▼
┌─────────────────────┐
│ scan_filter.py      │  ← 环境检查 → 图片校验 → 子进程调用 → 结果增强
│  (主入口 / 安全层)  │
└─────────┬───────────┘
          │
          ▼
┌─────────────────────┐
│   do_scan.py        │  ← 组装请求体，调用百度网盘扫描 API
│  (API 调用执行层)   │
└─────────┬───────────┘
          │
          ▼
┌─────────────────────┐
│ 百度网盘扫描服务    │  ← https://pan.baidu.com/apaas/scan/filter
│  (云端图像处理)     │
└─────────────────────┘

2.3 文件结构

文件	职责
SKILL.md	意图定义、触发规则、执行流程规范
scripts/scan_filter.py	主入口：环境检查、图片格式与大小校验、子进程调度、结果增强
scripts/do_scan.py	下游执行：请求体组装、HTTP 调用
scripts/config.py	配置管理：从环境变量读取 API Key 与默认参数
scripts/file_saver.py	工具函数：Base64 图片解码与本地持久化

三、功能

baidu-drive-scan 提供了九种文档图像处理模式，由 LLM 根据用户自然语言意图匹配后传入。

3.1 内容清除类

内容清除类处理旨在从文档图像中移除特定的叠加信息，保留原始文档内容。

去手写

移除文档图像中已填写的手写笔迹、批注、涂鸦等内容，还原为空白或仅含印刷文字的干净文档。典型适用场景包括：清除试卷上的手写答案以便重复使用、移除文档上的手写批注保留打印原文。该能力对印刷文字与手写内容的区分精度直接决定了输出质量。

去水印

在不损伤背景和整体构图的前提下，精准擦除图片中的水印、Logo、时间戳、角标等附加标记。该能力的核心技术挑战在于水印区域的图像修复——需要在移除标记的同时，生成与周围背景视觉一致的填充内容。

去阴影

消除因拍摄角度、手部遮挡、光线不均等原因产生的阴影、暗角和明暗斑块，统一图像亮度。该能力适用于手机拍摄文档时常见的光照不均匀问题。

去屏纹

针对翻拍屏幕、显示器或投影产生的摩尔纹、彩色条纹、反光等干扰进行消除。该模式的技术难点在于屏纹通常具有高频周期性特征，需要在去除干扰的同时保持文字和图像的清晰度。

3.2 画质增强类

画质增强类处理旨在提升文档图像的整体视觉质量。

清晰化

针对存在模糊、低分辨率、昏暗等画质缺陷的图像，执行去模糊、超分辨率重建、亮度与对比度增强。该能力仅在用户明确反馈图像存在画质问题时触发，不作为通用扫描意图的默认处理。

证件票据增强

专门针对证件（身份证、护照、驾驶证、银行卡等）和票据（发票、收据、合同、名片等）照片进行画质优化，使文字与关键信息更加清晰。该模式在通用增强的基础上，针对证件票据的版式特征做了专门的算法优化。

3.3 格式转换类

黑白处理/去底色

将带有彩色背景、红头文件、灰底或复杂底色的文档转换为纯白背景搭配黑色文字的清晰版本。该能力对于公文处理、档案电子化等需要统一格式的场景具有较高的实用价值。

3.4 几何矫正类

检测矫正

对拍摄倾斜、透视变形的文档图像进行自动检测与几何矫正，裁剪多余背景边缘，输出规整的矩形文档图像。该能力仅执行几何变换，不包含画质增强处理，适用于后续需要进一步 OCR 识别或打印输出的场景。

3.5 综合处理类

扫描增强

作为默认的兜底处理模式，当用户的意图不匹配上述任何具体场景时触发。该模式执行综合性的文档优化处理，适用于用户仅表达"扫描处理""优化文档""扫成电子版"等通用意图的场景。

3.6 意图路由机制

该技能的意图匹配采用优先级顺序匹配策略：LLM 按照技能文档中定义的九个意图描述，从上到下逐一匹配用户输入，命中第一个即停止。这种设计确保了意图的确定性和可预测性，避免了多意图歧义问题。

四、技术架构与安全设计

4.1 请求链路

完整的请求处理链路如下：

意图解析：LLM 读取 SKILL.md 中的意图列表，根据用户自然语言输入匹配对应的 method 标识

环境校验：scan_filter.py 检查 BDPAN_API_KEY 环境变量是否已配置

图片校验：通过 stdin 读取二进制图片数据，执行格式魔数检测（支持 JPG/PNG/GIF/BMP/WebP）和大小校验（上限 5MB）

API 调用：do_scan.py 将 Base64 编码的图片和 method 参数组装为 JSON 请求体，通过 HTTPS POST 发送至百度网盘扫描服务端点

结果处理：服务端返回处理后的 Base64 图片，scan_filter.py 自动解码并保存为本地临时文件

4.2 鉴权机制

API 通过 URL 查询参数 api_key 传递鉴权令牌，令牌存储于环境变量 BDPAN_API_KEY 中。这种设计将敏感凭证与命令行参数隔离，降低了凭证泄露的风险。技能文档明确要求禁止在终端明文输出或分享 API Key。

4.3 安全策略

该技能在安全设计方面体现了多层次防护思路：

安全维度	具体措施
凭据安全	API Key 通过环境变量传递，禁止命令行参数明文暴露
输入校验	图片格式通过二进制魔数检测（非后缀名判断），防止格式伪装
大小限制	单张图片上限 5MB，防止超大载荷导致服务异常
注入防护	子进程调用使用列表传参（subprocess.run 的列表模式），避免 shell 注入
参数约束	method 值限定为 1-9 的整数白名单，防止非法参数注入
传输安全	Base64 图片数据通过 stdin 管道传递至子进程，避免命令行参数长度溢出（ARG_MAX 限制）
隐私声明	技能文档明确告知用户图片将被发送至百度网盘内部服务处理，服务端不永久保存

五、与 WPS 灵犀的集成实践

5.1 安装部署

通过 ClawHub CLI 一键安装：

clawhub install baidu-drive-scan --dir <技能目录> --force

安装完成后，技能目录包含 SKILL.md、_meta.json 及 scripts 子目录。ClawHub CLI 自动创建 .clawhub 目录用于版本管理。

5.2 环境配置

安装后需配置 API Key 环境变量：

# Linux / macOS
export BDPAN_API_KEY="your_api_key_here"

# Windows (持久化)
setx BDPAN_API_KEY "your_api_key_here"

API Key 通过百度网盘扫描技能的官方页面获取。配置完成后，AI Agent 在每次会话中即可自动读取该环境变量完成鉴权。

5.3 使用流程

在 WPS 灵犀中，用户仅需以自然语言描述需求，系统将自动完成意图匹配和参数传递：

用户输入："把这张试卷上的手写答案去掉"

LLM 匹配意图"去手写"，确定 method=3

调用 scan_filter.py，传入图片和 method 参数

服务端处理后返回清洁图像，自动保存至本地

整个流程对用户透明，无需手动指定处理模式或操作命令行。

六、建议

6.1 功能对标

WPS 原生扫描 SKILL 应至少覆盖以下核心能力：

能力维度	百度网盘扫描技能	WPS 建议方向
内容清除	去手写、去水印、去阴影、去屏纹	同等覆盖，并增加去褶皱、去折痕等物理文档常见缺陷处理
画质增强	清晰化、证件票据增强	在通用增强基础上，增加手写体增强、印章增强等场景化优化
格式转换	黑白处理/去底色	增加灰度化、二值化（自适应阈值）、色彩校正等更多格式选项
几何矫正	检测矫正	增加多页自动分割、批量矫正等效率型功能
OCR 识别	未提供	集成 WPS OCR 能力，实现扫描 + 识别的一体化流程

6.2 差异化方向

WPS 在文档处理领域拥有数十年的技术积累，原生扫描 SKILL 可以在以下方向构建差异化优势：

文档理解深度集成

百度网盘扫描技能仅处理图像层面的增强，不具备对文档内容的语义理解。WPS 可以将扫描能力与文档结构识别深度融合——扫描后自动识别标题、正文、表格、图片等文档元素，输出可直接编辑的结构化文档，而非单纯的图像处理结果。

Office 原生工作流闭环

扫描 SKILL 与 WPS 的文档编辑、PDF 处理、表格管理等能力形成闭环。用户可以在一次对话中完成"扫描证件 → 提取信息 → 填入表格 → 生成报告"的完整工作流，无需在不同应用之间切换。

本地化与隐私保护

百度网盘扫描技能依赖云端 API 处理，图片需要上传至百度服务器。WPS 可以提供本地模型推理方案，对于涉及商业机密、个人隐私的敏感文档，用户可选择本地处理模式，从根本上消除数据外泄风险。

多语言与多版式支持

百度网盘扫描技能主要面向中文文档场景。WPS 作为国际化办公套件，原生扫描 SKILL 可以从设计之初即支持多语言（中、英、日、韩等）和多版式（A4、Letter、B5 等）的文档处理，服务更广泛的用户群体。

6.3 生态价值

推出原生扫描 SKILL 对 WPS 生态的意义不仅限于功能补全，更在于生态位的战略性布局：

技能市场供给：作为 WPS 官方技能，可以提升 WPS 灵犀技能市场的供给侧质量，为用户提供开箱即用的高质量官方技能选择

开发者示范：为第三方开发者提供技能开发的最佳实践参考，推动 WPS 灵犀技能生态的规范化发展

AI Agent 能力边界拓展：将传统的图像处理能力纳入 Agent 的工具集，拓展 AI Agent 在文档处理场景的能力边界

七、结语

baidu-drive-scan 技能的出现表明，文档扫描能力正在从独立应用向 AI Agent 可组合技能的方向演进。该技能在架构设计上体现了良好的分层解耦思想，在安全设计上覆盖了凭据管理、输入校验、注入防护等多个维度，在功能覆盖上提供了九种文档图像处理模式，具备一定的实用价值。

然而，该技能也存在明显的局限性：依赖百度网盘云端 API、不支持 OCR 识别、不支持批量处理、缺乏与文档编辑流程的深度集成。这些局限性恰恰为 WPS 推出原生扫描 SKILL 留下了充足的差异化空间。

WPS 在文档处理领域拥有深厚的技术积累和庞大的用户基础。通过将扫描能力封装为标准化技能，并与 WPS 的文档编辑、OCR、PDF 处理等核心能力深度整合，WPS 有望在 AI Agent 办公场景中构建具有显著竞争优势的原生扫描解决方案。

反馈直通车

2026-05-20 08:11:07 广东省

6 +1

问 百度网盘正式发布扫描SKILL，希望WPS尽快跟进