百度网盘正式发布扫描SKILL,希望WPS尽快跟进
Lv.2潜力创作者
一、引言
文档扫描能力正从独立的应用工具演变为智能体技能(Skill)的可组合模块。用户无需打开专用应用,仅通过自然语言描述即可调用扫描处理能力,实现与文档编辑、知识管理等办公流程的无缝衔接。近期,百度网盘团队(baidunetdiskaibot)通过 ClawHub 技能市场发布了一款文档扫描技能——baidu-drive-scan,将百度网盘内部的智能扫描处理能力封装为 AI Agent 可调用的标准化技能。
二、百度网盘扫描技能概述
2.1 来源与定位
该技能将百度网盘内部的智能图像扫描处理服务封装为标准化的 Agent Skill,可在AI Agent 中调用。该技能将文档扫描的图像后处理能力从百度网盘应用内抽离出来,以标准化接口的形式开放给 AI Agent 生态,使得智能体能够理解用户意图并自动调用相应的图像处理能力。
2.2 技术架构
该技能采用经典的 CLI 分层架构设计,意图理解与 API 调用完全解耦,安全校验集中在中间层,便于独立升级和维护。
用户自然语言意图
│
▼
┌─────────────────────┐
│ SKILL.md (意图路由) │ ← LLM 语义匹配,确定 method 值
└─────────┬───────────┘
│
▼
┌─────────────────────┐
│ scan_filter.py │ ← 环境检查 → 图片校验 → 子进程调用 → 结果增强
│ (主入口 / 安全层) │
└─────────┬───────────┘
│
▼
┌─────────────────────┐
│ do_scan.py │ ← 组装请求体,调用百度网盘扫描 API
│ (API 调用执行层) │
└─────────┬───────────┘
│
▼
┌─────────────────────┐
│ 百度网盘扫描服务 │ ← https://pan.baidu.com/apaas/scan/filter
│ (云端图像处理) │
└─────────────────────┘2.3 文件结构
文件 | 职责 |
SKILL.md | 意图定义、触发规则、执行流程规范 |
scripts/scan_filter.py | 主入口:环境检查、图片格式与大小校验、子进程调度、结果增强 |
scripts/do_scan.py | 下游执行:请求体组装、HTTP 调用 |
scripts/config.py | 配置管理:从环境变量读取 API Key 与默认参数 |
scripts/file_saver.py | 工具函数:Base64 图片解码与本地持久化 |
三、功能
baidu-drive-scan 提供了九种文档图像处理模式,由 LLM 根据用户自然语言意图匹配后传入。
3.1 内容清除类
内容清除类处理旨在从文档图像中移除特定的叠加信息,保留原始文档内容。
去手写
移除文档图像中已填写的手写笔迹、批注、涂鸦等内容,还原为空白或仅含印刷文字的干净文档。典型适用场景包括:清除试卷上的手写答案以便重复使用、移除文档上的手写批注保留打印原文。该能力对印刷文字与手写内容的区分精度直接决定了输出质量。
去水印
在不损伤背景和整体构图的前提下,精准擦除图片中的水印、Logo、时间戳、角标等附加标记。该能力的核心技术挑战在于水印区域的图像修复——需要在移除标记的同时,生成与周围背景视觉一致的填充内容。
去阴影
消除因拍摄角度、手部遮挡、光线不均等原因产生的阴影、暗角和明暗斑块,统一图像亮度。该能力适用于手机拍摄文档时常见的光照不均匀问题。
去屏纹
针对翻拍屏幕、显示器或投影产生的摩尔纹、彩色条纹、反光等干扰进行消除。该模式的技术难点在于屏纹通常具有高频周期性特征,需要在去除干扰的同时保持文字和图像的清晰度。
3.2 画质增强类
画质增强类处理旨在提升文档图像的整体视觉质量。
清晰化
针对存在模糊、低分辨率、昏暗等画质缺陷的图像,执行去模糊、超分辨率重建、亮度与对比度增强。该能力仅在用户明确反馈图像存在画质问题时触发,不作为通用扫描意图的默认处理。
证件票据增强
专门针对证件(身份证、护照、驾驶证、银行卡等)和票据(发票、收据、合同、名片等)照片进行画质优化,使文字与关键信息更加清晰。该模式在通用增强的基础上,针对证件票据的版式特征做了专门的算法优化。
3.3 格式转换类
黑白处理/去底色
将带有彩色背景、红头文件、灰底或复杂底色的文档转换为纯白背景搭配黑色文字的清晰版本。该能力对于公文处理、档案电子化等需要统一格式的场景具有较高的实用价值。
3.4 几何矫正类
检测矫正
对拍摄倾斜、透视变形的文档图像进行自动检测与几何矫正,裁剪多余背景边缘,输出规整的矩形文档图像。该能力仅执行几何变换,不包含画质增强处理,适用于后续需要进一步 OCR 识别或打印输出的场景。
3.5 综合处理类
扫描增强
作为默认的兜底处理模式,当用户的意图不匹配上述任何具体场景时触发。该模式执行综合性的文档优化处理,适用于用户仅表达"扫描处理""优化文档""扫成电子版"等通用意图的场景。
3.6 意图路由机制
该技能的意图匹配采用优先级顺序匹配策略:LLM 按照技能文档中定义的九个意图描述,从上到下逐一匹配用户输入,命中第一个即停止。这种设计确保了意图的确定性和可预测性,避免了多意图歧义问题。
四、技术架构与安全设计
4.1 请求链路
完整的请求处理链路如下:
意图解析:LLM 读取 SKILL.md 中的意图列表,根据用户自然语言输入匹配对应的 method 标识
环境校验:scan_filter.py 检查 BDPAN_API_KEY 环境变量是否已配置
图片校验:通过 stdin 读取二进制图片数据,执行格式魔数检测(支持 JPG/PNG/GIF/BMP/WebP)和大小校验(上限 5MB)
API 调用:do_scan.py 将 Base64 编码的图片和 method 参数组装为 JSON 请求体,通过 HTTPS POST 发送至百度网盘扫描服务端点
结果处理:服务端返回处理后的 Base64 图片,scan_filter.py 自动解码并保存为本地临时文件
4.2 鉴权机制
API 通过 URL 查询参数 api_key 传递鉴权令牌,令牌存储于环境变量 BDPAN_API_KEY 中。这种设计将敏感凭证与命令行参数隔离,降低了凭证泄露的风险。技能文档明确要求禁止在终端明文输出或分享 API Key。
4.3 安全策略
该技能在安全设计方面体现了多层次防护思路:
安全维度 | 具体措施 |
凭据安全 | API Key 通过环境变量传递,禁止命令行参数明文暴露 |
输入校验 | 图片格式通过二进制魔数检测(非后缀名判断),防止格式伪装 |
大小限制 | 单张图片上限 5MB,防止超大载荷导致服务异常 |
注入防护 | 子进程调用使用列表传参(subprocess.run 的列表模式),避免 shell 注入 |
参数约束 | method 值限定为 1-9 的整数白名单,防止非法参数注入 |
传输安全 | Base64 图片数据通过 stdin 管道传递至子进程,避免命令行参数长度溢出(ARG_MAX 限制) |
隐私声明 | 技能文档明确告知用户图片将被发送至百度网盘内部服务处理,服务端不永久保存 |
五、与 WPS 灵犀的集成实践
5.1 安装部署
通过 ClawHub CLI 一键安装:
clawhub install baidu-drive-scan --dir <技能目录> --force安装完成后,技能目录包含 SKILL.md、_meta.json 及 scripts 子目录。ClawHub CLI 自动创建 .clawhub 目录用于版本管理。
5.2 环境配置
安装后需配置 API Key 环境变量:
# Linux / macOS
export BDPAN_API_KEY="your_api_key_here"
# Windows (持久化)
setx BDPAN_API_KEY "your_api_key_here"API Key 通过百度网盘扫描技能的官方页面获取。配置完成后,AI Agent 在每次会话中即可自动读取该环境变量完成鉴权。
5.3 使用流程
在 WPS 灵犀中,用户仅需以自然语言描述需求,系统将自动完成意图匹配和参数传递:
用户输入:"把这张试卷上的手写答案去掉"
LLM 匹配意图"去手写",确定 method=3
调用 scan_filter.py,传入图片和 method 参数
服务端处理后返回清洁图像,自动保存至本地
整个流程对用户透明,无需手动指定处理模式或操作命令行。
六、建议
6.1 功能对标
WPS 原生扫描 SKILL 应至少覆盖以下核心能力:
能力维度 | 百度网盘扫描技能 | WPS 建议方向 |
内容清除 | 去手写、去水印、去阴影、去屏纹 | 同等覆盖,并增加去褶皱、去折痕等物理文档常见缺陷处理 |
画质增强 | 清晰化、证件票据增强 | 在通用增强基础上,增加手写体增强、印章增强等场景化优化 |
格式转换 | 黑白处理/去底色 | 增加灰度化、二值化(自适应阈值)、色彩校正等更多格式选项 |
几何矫正 | 检测矫正 | 增加多页自动分割、批量矫正等效率型功能 |
OCR 识别 | 未提供 | 集成 WPS OCR 能力,实现扫描 + 识别的一体化流程 |
6.2 差异化方向
WPS 在文档处理领域拥有数十年的技术积累,原生扫描 SKILL 可以在以下方向构建差异化优势:
文档理解深度集成
百度网盘扫描技能仅处理图像层面的增强,不具备对文档内容的语义理解。WPS 可以将扫描能力与文档结构识别深度融合——扫描后自动识别标题、正文、表格、图片等文档元素,输出可直接编辑的结构化文档,而非单纯的图像处理结果。
Office 原生工作流闭环
扫描 SKILL 与 WPS 的文档编辑、PDF 处理、表格管理等能力形成闭环。用户可以在一次对话中完成"扫描证件 → 提取信息 → 填入表格 → 生成报告"的完整工作流,无需在不同应用之间切换。
本地化与隐私保护
百度网盘扫描技能依赖云端 API 处理,图片需要上传至百度服务器。WPS 可以提供本地模型推理方案,对于涉及商业机密、个人隐私的敏感文档,用户可选择本地处理模式,从根本上消除数据外泄风险。
多语言与多版式支持
百度网盘扫描技能主要面向中文文档场景。WPS 作为国际化办公套件,原生扫描 SKILL 可以从设计之初即支持多语言(中、英、日、韩等)和多版式(A4、Letter、B5 等)的文档处理,服务更广泛的用户群体。
6.3 生态价值
推出原生扫描 SKILL 对 WPS 生态的意义不仅限于功能补全,更在于生态位的战略性布局:
技能市场供给:作为 WPS 官方技能,可以提升 WPS 灵犀技能市场的供给侧质量,为用户提供开箱即用的高质量官方技能选择
开发者示范:为第三方开发者提供技能开发的最佳实践参考,推动 WPS 灵犀技能生态的规范化发展
AI Agent 能力边界拓展:将传统的图像处理能力纳入 Agent 的工具集,拓展 AI Agent 在文档处理场景的能力边界
七、结语
baidu-drive-scan 技能的出现表明,文档扫描能力正在从独立应用向 AI Agent 可组合技能的方向演进。该技能在架构设计上体现了良好的分层解耦思想,在安全设计上覆盖了凭据管理、输入校验、注入防护等多个维度,在功能覆盖上提供了九种文档图像处理模式,具备一定的实用价值。
然而,该技能也存在明显的局限性:依赖百度网盘云端 API、不支持 OCR 识别、不支持批量处理、缺乏与文档编辑流程的深度集成。这些局限性恰恰为 WPS 推出原生扫描 SKILL 留下了充足的差异化空间。
WPS 在文档处理领域拥有深厚的技术积累和庞大的用户基础。通过将扫描能力封装为标准化技能,并与 WPS 的文档编辑、OCR、PDF 处理等核心能力深度整合,WPS 有望在 AI Agent 办公场景中构建具有显著竞争优势的原生扫描解决方案。
WPS社区反馈员