【建议】增强灵犀Claw与WPS的生态协同能力
作为一名WPS灵犀Claw的深度用户,在日常使用中我逐渐产生了一些关于产品方向的思考。WPS灵犀Claw自发布以来展现出了强大的AI Agent能力,但在与WPS自身生态的协同方面,我认为还有很大的提升空间。本文将从现状分析出发,提出一些可能值得探讨的增强方向。
一、当前能力模型的观察
1.1 双引擎驱动的架构
经过实际使用和技能文件的分析,WPS灵犀Claw的能力目前主要依赖两大支柱:
大模型能力:提供自然语言理解、推理、代码生成等通用智能
SKILL技能体系:通过模块化的技能包扩展专业能力
这种架构本身是非常优秀的——大模型保证了通用智能的上限,而SKILL体系则提供了专业领域的深耕能力,两者相得益彰。
1.2 WPS相关技能的实际覆盖范围
我梳理了当前已安装的全部WPS相关技能,大致分为以下几类:
WPS云端能力类(7个):
技能名称 | 实际能力 | 依赖WPS客户端? |
wps-365 | WPS协作(IM/邮件/日程/知识库) | 否,通过API调用 |
kdocs / 金山文档 | 云文档CRUD、分享、协作 | 否,通过API调用 |
dbsheet | 多维表操作 | 否,通过API调用 |
wpsnote-skills | WPS笔记读写与管理 | 否,通过API调用 |
文档格式通用处理类(5个):
技能名称 | 实际能力 | 依赖WPS客户端? |
docx | Word文档创建与编辑 | 否,使用Python库 |
xlsx / excel | Excel文件创建与分析 | 否,使用Python库 |
pptx | PPT创建与编辑 | 否,使用Python库 |
PDF处理(合并/拆分/OCR等) | 否,使用Python库 |
1.3 一个关键发现
从上面的分析可以清晰地看到:当前所有与WPS相关的技能,都不直接依赖WPS客户端。它们要么通过云端API进行操作,要么使用通用的Python库处理标准文件格式。
换句话说,WPS灵犀Claw虽然名为WPS的AI助手,但在实际能力层面,它与任何一款能处理docx/xlsx/pptx格式的AI工具没有本质区别。WPS Office客户端中积累多年的丰富功能——排版引擎、智能排版、格式套用、模板系统、AI设计室等——目前都无法被Claw直接调用。
二、协同不足带来的痛点
2.1 典型场景:在线文档创建PPT
举一个我经常遇到的场景:需要使用金山在线文档创建一份PPT。
当前Claw的处理流程是这样的:
用户需求 → pptx技能生成本地PPT → kdocs/金山文档技能上传至云端这个流程的问题在于:
流程冗长:需要两个技能接力完成,中间涉及本地文件生成和上传两个环节
能力割裂:金山文档本身就具备在线创建PPT的能力,但因为Claw的"金山文档"技能是纯API操作、不具备AI生成内容的能力,所以不得不先用pptx技能在本地生成,再上传
速度受限:本地生成+上传的耗时远大于直接在云端创建
格式损耗:通过Python库生成的PPT与WPS原生排版引擎的输出在样式细节上存在差异
2.2 通用技能 vs WPS特色能力
目前docx、xlsx、pptx这些技能使用的是python-docx、openpyxl、python-pptx等通用库。这些库确实能完成基本的文档操作,但它们无法调用WPS独有的能力:
WPS特有的排版引擎和智能排版
WPS的模板系统和稻壳模板资源
WPS AI在客户端中的深度集成能力(演示智能体、表格智能体、写作智能体等)
WPS的格式兼容性优化
这导致一个尴尬的局面:WPS灵犀Claw生成的文档并不通过WPS生成,WPS客户端在这个过程中完全被抛弃了,WPS灵犀Claw跟WPS之间并没有太多关联!
三、具体建议
3.1 引入WPS客户端文档编辑能力
建议:引入豆包那样的文档编辑器,生成文档后可以打开文档编辑器,文档编辑器具备WPS客户端中文档编辑的完整功能。
价值:
利用WPS多年积累的排版引擎,输出质量更高的文档
直接使用WPS的格式兼容性优化,避免跨引擎的格式差异
支持WPS特有的高级排版功能
可能的实现路径:
通过WPS开放平台的本地API/COM接口调用客户端能力
或将WPS排版引擎封装为可供Claw调用的微服务
3.2 集成WPS AI智能体能力
WPS灵犀(客户端内嵌版)已具备成熟的智能体矩阵:
写作智能体:支持公文规范写作、创意写作、陪伴式写作等
演示智能体:支持大纲生成、内容填充、模板匹配、一键生成演示文稿
表格智能体:支持数据分析、公式推荐、图表生成、数据透视
建议Claw能够直接调用这些智能体的能力,而不是用通用Python库"从零造轮子"。
建议引入WPS AI PPT和图片转PPT功能。
3.3 接入WPS在线创作工具
建议:引入生成WPS在线流程图、在线思维导图、图片的能力,且生成后可一键跳转至WPS的相应组件进行编辑。
目前Claw可以通过Mermaid等工具生成流程图和思维导图,但产出的图片需要通过其他编辑软件或者通过进一步的AI指令进行编辑。如果能够直接对接WPS的在线流程图和思维导图组件,用户就可以在生成后立即进入WPS的编辑器进行微调,这将极大地提升工作流的连贯性。
理想的工作流:
"帮我画一个项目管理的流程图"
→ Claw调用WPS在线流程图API生成
→ 自动打开浏览器跳转至WPS流程图编辑器
→ 用户直接在编辑器中调整细节3.4 引入WPS AI设计室与AI图表
WPS AI设计室:目前已支持输入文字自动生成海报、宣传单、社交封面图等设计作品。Claw如果能直接调用这一能力,在需要生成配图、封面、宣传物料时将大为便捷。
WPS AI图表:提供智能数据可视化能力,能够根据数据自动推荐和生成专业图表。这与Claw的数据分析能力天然互补。
3.5 接入AI法律助手
WPS AI法律助手已经在客户端和小程序端上线,能够进行法律条文检索、案例分析等专业法律服务。Claw如果能集成这一能力,在处理合同审查、法律文书等场景时将具备更强的专业壁垒。
3.6 引入稻壳模板与文库资源
稻壳作为WPS的模板内容平台,拥有海量的PPT模板、Word模板、Excel模板等资源。建议:
Claw在生成文档时能自动匹配和套用稻壳模板
支持基于用户描述的AI模板推荐(稻壳已有此功能)
接入文库的AI模板生成能力
3.7 接入WPS云盘与知识库
WPS 365的共享云盘和知识库功能已经相当成熟:
云盘:支持团队文件管理、权限控制、版本管理
知识库:文件数已超10亿,支持AI生成知识库简介、一键创建知识库、知识广场公开共享
目前wps-365技能已部分覆盖知识库功能,但建议进一步扩展,让Claw能够更自然地将研究成果、项目文档沉淀到知识库中。
3.8 集成WPS听记功能
WPS听记(AI听记/语音速记)在会议记录、课堂笔记等场景中表现优异,支持实时录音转写、说话人分离、AI摘要等能力。
WPS灵犀Claw目前已内置 speech_to_text 工具,能够将本地 mp3/wav/pcm 格式的音频文件转录为文字。这是一个很好的基础能力,但它的定位是离线、文件级的语音转文字——用户需要先准备好音频文件,再交给Claw处理。
而WPS听记提供的是一整套端到端的实时语音工作流:
维度 | Claw内置 speech_to_text | WPS听记 |
触发方式 | 需提供已有的音频文件 | 支持实时录音启动 |
转写场景 | 离线、单次文件处理 | 实时、持续录音转写 |
说话人分离 | 不支持 | 支持,可区分不同发言人 |
AI摘要 | 无,仅输出原始文本 | 支持自动生成会议纪要、待办提取 |
设备支持 | 仅桌面端 | 手机端+桌面端 |
协作能力 | 无 | 支持共享转写结果至金山文档 |
如果Claw能进一步接入WPS听记的完整能力链路,两个工具就能形成互补:
已有能力:Claw通过 speech_to_text 可以处理用户提供的音频文件并提取文字
功能增强:接入WPS听记后,Claw可以主动发起录音转写、获取说话人分离结果、调用AI摘要生成会议纪要,并将结果自动归档至金山文档或知识库
一个理想的工作流:
"帮我记录一下接下来的项目评审会"
→ Claw调用WPS听记启动实时录音
→ 会议结束后获取转写文本(含说话人标注)
→ AI自动生成结构化会议纪要
→ 保存至金山文档并分享给参会人员从"只能处理已有音频文件"到"能够发起和管理完整的语音工作流",这将是从工具到智能体的关键一步。
3.9 接入金山文档共享协作
金山文档提供了完善的协作能力:链接分享(可设权限)、指定人员邀请、微信群共享、评论批注、修订记录等。
虽然金山文档技能已具备基本的分享功能,但建议进一步增强:
Claw能够自主管理文档权限
支持查看协作编辑的实时状态
集成评论和批注的读写能力
3.10 引入拍照扫描功能
WPS拍照扫描是一款集格式转换、学习辅助、证件管理于一体的全能型扫描工具,支持文档扫描、OCR识别、多格式输出等。
如果Claw能对接这一能力,用户就可以通过自然语言指令完成:
"扫描这份合同并转为Word文档"
"识别这张表格并整理为Excel"
"拍一个证件照并提取信息"
四、更深层的思考:Claw与WPS客户端的集成
4.1 两种产品的定位差异
目前WPS存在两个AI入口:
维度 | WPS灵犀(客户端内嵌) | WPS灵犀Claw(桌面Agent) |
运行位置 | WPS客户端内部 | 独立桌面应用 |
AI引擎 | WPS AI(服务端) | 大模型+SKILL |
操作范围 | 当前打开的文档 | 全电脑文件系统+网络 |
WPS功能调用 | 深度集成 | 通过API/本地库间接调用 |
特色功能 | 演示/表格/写作智能体、AI设计室等 | 通用AI+第三方技能 |
扩展性 | 较低(受客户端限制) | 极高(SKILL体系) |
两者各有优势:内嵌灵犀对WPS功能调用深入但扩展性受限,Claw扩展性极强但与WPS生态协同不足。
4.2 最佳方案:在WPS客户端中深度集成Agent能力
我认为最理想的方案是在WPS客户端中直接集成Claw的Agent能力,让WPS客户端成为Claw的一个"宿主环境"。具体来说:
WPS客户端内直接调用Agent:在WPS的各组件(文字、表格、演示、PDF)中直接提供Claw的对话入口,用户可以在编辑文档时直接调用Agent能力
充分利用现有WPS AI:Claw在WPS客户端内运行时,可以无缝调用演示智能体、表格智能体、写作智能体、AI设计室等已有能力,而不是用通用Python库重复实现
双向调用:不仅Agent可以操作WPS,WPS内部的事件(如打开文档、编辑内容)也可以触发Agent的主动响应
统一的AI体验:消除"内嵌灵犀"和"桌面Claw"的认知割裂,让用户感受到的是一个完整的、贯穿始终的AI办公体验
一个理想化的使用场景:
用户在WPS中打开Claw对话窗口:
"帮我根据这份Word文档的数据,生成一份季度汇报PPT,
套用稻壳的商务模板,并在金山文档中分享给团队"
Claw的工作流:
→ 读取当前打开的Word文档(直接调用客户端API)
→ 调用WPS演示智能体生成PPT(利用WPS原生AI)
→ 匹配稻壳商务模板并套用
→ 上传至金山文档并设置团队协作权限
→ 生成分享链接并推送至WPS协作群聊在这个场景中,Claw不是在"外面"用Python库处理文件,而是在WPS的生态内部调度各项能力,整个流程一气呵成。
五、总结
WPS灵犀Claw作为一款AI Agent产品,其大模型能力和SKILL扩展体系已经展现出了强大的潜力。但如果要与WPS多年积累的办公生态形成真正的协同优势,我认为需要在以下几个层面进行增强:
能力层:将WPS的特色功能(智能体、设计室、听记、拍照扫描等)封装为Claw可调用的技能
引擎层:让Claw能够直接调用WPS的排版引擎和格式处理能力,而非依赖通用库
集成层:在WPS客户端中深度集成Agent入口,实现WPS AI与Claw能力的双向调度
生态层:打通稻壳、文库、云盘、知识库、金山文档协作等生态组件,形成完整的AI办公闭环
WPS拥有超过6亿设备、深厚的办公生态积累和日益成熟的AI能力矩阵,这是任何通用AI工具都无法比拟的优势。WPS灵犀Claw如果能够更好地承接和调度这些能力,真正实现"AI+办公生态"的深度融合,将有望成为AI办公领域最具差异化竞争力的产品。
期待WPS灵犀Claw的未来进化,也欢迎社区伙伴们一起讨论!
Lv.1新人创作者
Lv.2潜力创作者