WPS灵犀Claw的pptx技能解析及比较
一、WPS灵犀Claw的pptx技能=Claude的pptx技能
技能文件可在灵犀Claw安装文件夹下找到,路径示例:C:\Program Files\lingxi-desktop\resources\sandbox\skills\pptx,打开SKILL.md文件可查看技能的具体内容。
先根据用户意图判断任务类型,然后读取具体的.md文件,使用Python脚本(主要是python-pptx库)进行PPTX的读取和修改。
类型一:读取 PPT
适用场景:用户提供现有pptx文件,需要提取文字、结构或布局信息,回答用户问题。
执行步骤:读取skills/pptx/read_ppt.md
类型二:创建 PPT
适用场景:用户需要从零生成一份新的演示文稿。
不适用于:用户需要根据模板创建演示文稿。
执行步骤:
第 1 步:整理资料,读取skills/pptx/gen_ppt/information.md
第 2 步:设计视觉规范,读取skills/pptx/gen_ppt/design.md
第 3 步:规划内容大纲,读取skills/pptx/gen_ppt/outline.md
第 4 步:准备图片素材,读取skills/pptx/gen_ppt/images.md
第 5 步:调用工具生成PPT,读取skills/pptx/gen_ppt/generate.md
第 6 步:执行脚本生成pptx,读取skills/pptx/gen_ppt/build.md
第 7 步:检测并修复布局问题,读取skills/pptx/gen_ppt/fix.md
第 8 步:交付最终文件,读取skills/pptx/gen_ppt/deliver.md
类型三:编辑PPT
适用场景: 用户提供现有 .pptx 文件,需要对其进行内容修改、增删页面、调整顺序等编辑操作。
执行步骤:读取 skills/pptx/pptxedit.md,分析现有 PPT,执行编辑操作,保存输出。
经过对比,发现其本质上就是Claude的pptx技能
anthropics/skills/pptx
Anthropic官方出品,行业标杆。MCP 协议原生、内存沙箱隔离执行,严格遵循 ECMA-376 OOXML 国际标准,技术路线为「大模型语义决策与沙箱确定性代码执行完全解耦」。Python代码依赖markitdown[pptx]、defusedxml,配套 scripts 目录内置unpack/pack/validate.py工具;JavaScript代码依赖pptxgenjs,配套SKILL.md技能入口、editing.md编辑规范、pptxgenjs.mdAPI 参考文档。
读取解析能力
能力:无损读取 PPTX 文件,按需输出文本或全量结构化数据,为每个元素绑定唯一寻址 ID。
核心逻辑:按解析深度匹配轻量 / 深度双路径,全程隔离大模型与二进制文件,彻底杜绝解析幻觉。
技术路线:轻量文本提取用markitdown[pptx]转 Markdown,深度解析用unpack.py内存解包→defusedxml防注入解析 XML DOM 树→提取元素与样式。
执行步骤:输入安全校验→解析场景判断→对应路径解析→语义映射与 ID 绑定→输出标准化数据。
编辑修改能力
能力:基于自然语言指令完成 PPTX 精准无损编辑,仅修改目标节点不破坏原格式。
核心逻辑:事务性原子操作,预校验 + 后校验双闭环,校验失败自动回滚,全程遵循editing.md规范。
技术路线:简单替换用内置replace.py,复杂编辑用unpack.py解包→XML 节点精准修改→validate.py合规校验→pack.py内存重打包。
执行步骤:指令拆原子操作集→原文件预校验→目标节点定位修改→多层标准校验→无损输出,校验失败自动回滚。
创建生成能力
能力:支持基于模板 / 从零生成全平台兼容的标准 PPTX。
核心逻辑:按生成场景匹配最优技术栈,保障格式合规与跨软件兼容。
技术路线:模板生成用 Python 原生 OOXML 操作 + 内置工具,从零生成注入pptxgenjs.md上下文参考→pptxgenjs执行生成→合规校验。
执行步骤:需求拆解生成大纲→场景判断→对应路径执行→内容填充与格式规范→全量校验→输出标准 PPTX 文件。
二、MiniMax的pptx-generator技能
可以通过GitHub仓库 MiniMax-AI/pptx-generator下载该技能。
git clone --sparse --filter=blob:none https://github.com/MiniMax-AI/skills.git
cd skills
git sparse-checkout add skills/pptx-generatorMiniMax将PPT 生成的重点放在了视觉风格的统一(字体大小、间距、配色、圆角弧度),而非单纯往 slide 上放内容。做法是先定义一套约束体系,再去做生成。
页面类型上,预定义了 5 种标准页面类型:封面、目录、章节分割、内容、总结。每种类型都有明确的布局规范和元素位置。
风格上,设计了 4 套配方:Sharp、Soft、Rounded、Pill。每套配方定义了圆角半径、阴影参数、边框粗细、间距比例等一整套数值。切换配方,就能整体改变一份 PPT 的视觉调性,而不用逐页调整。
配色方案上,设计了18套,每套都保证主色、辅色、强调色之间的对比度和和谐度
技术上,基于JavaScript 生态下的PptxGenJS。如果上传至WPS灵犀Claw进行使用,需要先在本地安装Node.js。
对于已有模板的编辑场景,采用解压的方式进行读取和编辑,直接在 XML 层面操作。.pptx文件本质上是一个压缩包,里面是一组 XML 文件。MiniMax先对pptx文件进行解压,只修改对应的 XML 节点,然后重新打包。这样每次编辑只动需要动的地方,尽量不破坏原有的格式和结构。
注:一位自称在Kimi负责Office Skill工作的开发者在知乎公开指控代码抄袭,指出双方代码高度重合,并详细列出了时间线。
三、Google的gws-slides技能
Google Workspace CLI-Slides
gws-slides 是 Google Workspace CLI(简称 gws)内置的Agent Skill,可实现Google Slides 全生命周期操作,同时通过 Google 云端格式转换支持对 PPTX 文件。底层基于 Rust 语言开发,核心依赖 Google Slides/Drive API,Discovery Service 实时拉取 API 规范,原生适配 MCP 协议,所有输入输出均为结构化 JSON 格式。
1、读取解析能力
能力:支持本地 PPTX 无损转云端 Slides 读取,或直接读取云端文件,输出 AI 可直接解析的层级化 JSON。
核心逻辑:完全规避本地二进制解析风险,依赖 Google 原生格式转换 + 标准化 API 拉取 + 语义映射 + 唯一 ID 绑定,杜绝解析幻觉。
技术路线:Drive API 上传转格式→Slides API presentations.get拉全量→Discovery 规范过滤冗余字段→绑定 pageObjectId/elementId。
执行步骤:输入校验 + OAuth2.0→本地转云端(按需)→拉取全量元数据 / 页面 / 元素→语义映射层级结构→输出标准化 JSON。
2、编辑修改能力
能力:基于自然语言指令完成原子化编辑,事务性失败全回滚,可按需导出 PPTX。
核心逻辑:AI 仅做指令拆解与决策,本地预校验拦截非法参数,云端batchUpdate保证操作一致性。
技术路线:Discovery 规范做 JSON Schema 预校验→Slides API batchUpdate事务性提交→Drive API export导出→保留操作日志。
执行步骤:指令拆原子请求集→本地预校验→事务性提交→结果校验→导出 PPTX(按需)。
3、创建生成能力
能力:从零创建全平台兼容的合规 Slides,支持自定义大纲 / 版式 / 主题,可导出 PPTX。
核心逻辑:基于预定义母版 / 版式体系,标准化流程生成,避免从零构建 XML 的格式错误。
技术路线:Discovery 规范生成请求→Slides API create+batchUpdate→Drive API export→全局统一样式。
执行步骤:需求拆结构化大纲→初始化空白→逐页填充内容→统一样式 / 配色→合规校验→导出 PPTX。
四、OpenAI的slides技能
本技能是 OpenAI 推出的JS+Python 混合栈、校验闭环驱动的 MCP 原生演示文稿技能,核心架构为「PptxGenJS 负责生成 / 编辑、Python 脚本负责校验渲染、官方辅助库统一规范」,严格遵循 SKILL.md 全流程规则。核心依赖:PptxGenJS为唯一生成 / 编辑库,python-pptx仅允许用于只读检查,配套scripts目录 Python 校验渲染脚本、assets内置pptxgenjs_helpers强制复用辅助库、referencesAPI 参考文档。
读取检查能力
能力:只读解析 PPTX 文件,提取内容、布局、字体信息,输出可用于重建的结构化数据。
核心逻辑:纯只读模式解析,不修改原文件,严格遵循「仅检查用 python-pptx」的官方禁令。
技术路线:python-pptx只读解析→render_slides.py渲染为 PNG 参考图→提取布局 / 尺寸 / 内容参数→输出结构化数据。
执行步骤:接收原文件路径→python-pptx合规只读解析→渲染可视化参考→提取核心参数→输出结构化检查结果。
编辑修改能力
能力:无损编辑 / 重建现有 PPTX,保留原生可编辑性,修复布局 / 溢出 / 字体问题。
核心逻辑:「渲染参考→匹配规格→重建编辑→多轮校验→修复交付」闭环,仅用 PptxGenJS 执行编辑。
技术路线:渲染原文件匹配宽高比→PptxGenJS 重建可编辑结构→应用修改→辅助库规范布局→Python 脚本校验溢出 / 字体→修复问题。
执行步骤:接收原文件 + 编辑指令→渲染原文件获取参考→匹配规格重建→执行编辑操作→多维度合规校验→修复问题后输出。
创建生成能力
能力:从零生成合规、原生可编辑的 PPTX,支持图表、代码块、公式等复杂元素。
核心逻辑:「大纲规划→规范构建→生成渲染→校验修复→完整交付」全流程,强制复用官方辅助库。
技术路线:生成结构化大纲→导入官方辅助库→PptxGenJS 构建页面→内置函数检测布局→Python 脚本合规校验→交付完整资产。
执行步骤:接收生成需求→生成页面大纲→初始化规范主题→逐页构建填充→双轮校验修复→交付 pptx+js 源文件 + 配套资产。
五、「HTML 样式」幻灯片
- zarazhangrui/frontend-slides:创建零依赖、充满动画的 「HTML 样式」幻灯片,完全在浏览器中运行。
模式 A:全新呈现 ——从零开始创作。
模式 B:PPT 转换 ——转换.pptx 文件。
模式 C:增强 ——改进现有的 HTML 演示。阅读、理解、提升。
第一阶段:内容发现(新演示)
第二阶段:风格发现
第三阶段:生成演示
第四阶段:PPT 转换
第五阶段:交付
第六阶段:分享与导出
源代码仓库:https://github.com/vkehfdl1/slides-grab
工作流程: