建议WPS引入Pi Agent
一、Pi Agent核心技术架构与能力特性解析
项目官方仓库:https://github.com/badlogic/pi-mono
Pi Agent是由Mario Zechner开发的开源智能体运行时框架,核心为pi-agent-core组件,凭借极简主义的架构设计、高效的闭环执行能力,获得Flask创造者Armin Ronacher等行业开发者的认可,是轻量化、高可控的Agent框架。
1.1 极简原子化工具体系,实现灵活的场景化能力扩展
Pi Agent回归Unix设计哲学,彻底摒弃了业界“场景化工具堆砌”的传统思路,仅封装了4个核心原子工具:read(文件读取)、write(文件创建/覆盖)、edit(基于字符串匹配的精准修改)、bash(Shell命令执行)。
该设计无需为细分场景单独开发封装工具,通过原子工具的组合调用,可让Agent自主组合出场景化执行能力,既能够降低工具生态的基础开发维护成本,也能更好地适配用户个性化、非标准化的任务需求。需要说明的是,该架构的原生优势集中在编程、运维等文件与终端操作场景,办公场景的适配需结合业务特性做针对性扩展。
1.2 有状态的运行时内核,构建多轮自动执行的任务闭环
pi-agent-core的核心是状态容器+消息队列+自动工具循环的运行时架构,可自动维护对话历史与任务执行状态,原生支持多轮对话与多步任务拆解执行。
其执行逻辑为:用户下达目标指令后,Agent自主拆解为可执行子任务,自主决策工具调用方式,自动执行并将结果回传至大模型,基于反馈持续迭代,直至完成最终目标,实现了“一次指令、多轮自动迭代”的执行能力,区别于传统Copilot主流的“单步指令、单次响应”的基础辅助模式。需要客观说明的是,对于复杂任务,Agent仍可能出现决策偏差、工具调用失败等问题,无法实现完全无需人工干预的绝对闭环。
1.3 事件驱动架构,具备办公UI体系的适配潜力
Pi Agent采用原生事件驱动设计,通过subscribe机制可实时感知Agent执行的全流程节点,包括任务启动、消息更新、工具执行结束、任务完成/终止等核心状态,能够为前端UI体系提供标准化的状态回调,实现任务执行过程的可视化展示。
同时,其支持流式应答与“最晚转换”策略,仅在调用大模型的瞬间完成消息格式转换,可最大限度保证上下文的实时更新与应用层的灵活性,具备适配WPS全端(PC、移动端、网页端)交互体系的技术基础,完整适配需结合WPS的前端事件模型做二次开发与对接。
1.4 低耦合的动态配置能力,具备架构适配灵活性
Pi Agent支持运行时动态切换模型、角色、工具集与配置参数,无需重建Agent实例,可与WPS现有“外部大模型合作+自研小模型补充”的混合架构形成兼容。
其核心系统Prompt总Token量约800Token,不足1000Token,显著低于同类框架常规1000-2000Token的基础Prompt规模,可一定程度降低大模型调用的基础Token消耗;同时支持上下文剪枝、外部上下文注入等优化能力,可对长文档、复杂任务场景的推理效率形成辅助优化。需要说明的是,大模型调用的核心Token消耗来自任务上下文、多轮对话历史与工具返回结果,系统Prompt的优化无法实现算力成本的大幅下降。
二、Pi Agent生态的相关实践参考
2.1 OpenClaw框架对Pi Agent的集成应用
官方参考文档:https://github.com/openclaw-ai/openclaw/blob/main/pi.md;Pi 集成架构 - OpenClaw --- Pi 集成架构 - OpenClaw
OpenClaw是一款跨平台AI代理网关,基于Pi Agent的核心架构做了集成与扩展,是Pi Agent在企业级场景的典型落地参考,其核心适配思路对WPS具备借鉴意义。
2.1.1 基于Pi原子化工具体系的领域化扩展
OpenClaw完全遵循Pi Agent的Unix极简哲学,未重构Pi Agent核心运行时,在Pi原生4个原子工具的基础上,通过Skill插件体系扩展了面向办公场景的基础操作能力,核心包括表格结构化读取、单元格精准修改、公式执行与校验、文档结构化解析、PDF文本与表格提取等基础操作。
所有扩展工具均遵循单一原子操作原则,无过度的场景化功能封装,通过工具的自由组合可适配多类办公场景,一定程度上解决了传统办公AI“场景覆盖不全、定制化能力不足”的问题,该扩展范式对WPS的工具封装具备参考价值。
2.1.2 基于Pi状态运行时的场景化优化
OpenClaw完全复用了Pi Agent的状态容器+消息队列+自动工具循环的核心运行时,并针对办公场景做了适配优化:新增了文档状态快照机制、执行步骤原子回滚能力、数据校验自动节点、异常重试策略,强化了办公任务的闭环执行稳定性。
同时,OpenClaw基于Pi的有状态架构,通过文件读写与系统API调用,实现了跨文档、跨应用的任务联动,可打通文档、表格、PDF、邮件等多办公组件的基础数据流转,与WPS全组件协同的产品生态具备适配性。
2.1.3 基于Pi事件驱动架构的可控性优化
OpenClaw完全复用了Pi Agent的subscribe事件驱动机制,并针对办公场景做了前端交互适配,实现了Agent执行全流程的节点可视化、过程可干预、结果可回滚。通过Pi的原生事件机制,OpenClaw可实时向前端推送任务拆解进度、工具执行状态、数据处理结果、异常告警等全节点信息,用户可随时暂停、修改参数、终止或回滚任务,能够缓解用户对Agent自主执行的“黑盒焦虑”。
2.1.4 基于Pi动态配置能力的混合模型调度
OpenClaw完全兼容Pi Agent的运行时动态模型切换能力,并基于办公场景需求实现了混合模型调度方案:基础场景(OCR识别、表格解析、格式调整、文本提取)由本地轻量化小模型处理,复杂逻辑推理(合规校验、经营分析、报告撰写)由云端大模型处理,基于Pi的动态配置能力,可在任务执行过程中实时切换适配模型,无需重建Agent实例,该方案可平衡办公场景的算力成本与执行效果。
2.2 Pi for Excel的设计思路与参考价值
项目官方仓库:https://github.com/tmustier/pi-for-excel
https://bbs.wps.cn/topic/84151
Pi for Excel是Pi Agent生态中,基于pi-agent-core构建的、面向Excel电子表格场景的轻量化智能体,是Pi Agent在结构化数据处理场景的垂直落地参考项目,其设计思路对WPS表格场景的智能体开发具备参考意义。
该项目基于Office.js对接Excel的对象模型与API体系,无需第三方插件即可实现表格场景的多轮自动执行能力,核心设计与能力如下:
2.2.1 基于Pi原子化架构的表格专属工具集
Pi for Excel在Pi原生原子工具的基础上,封装了面向Excel场景的专属原子操作工具,核心包括工作簿打开与解析、工作表切换、单元格区域结构化读取、单元格区域批量写入、公式插入与计算、数据透视表生成、可视化图表制作、数据清洗与标准化等。
所有工具严格遵循Pi的极简哲学,仅完成单一原子操作,通过工具组合可适配多类表格场景,无论是基础的公式生成、数据清洗,还是常规的财务建模、经营分析、多表联动核算,均可通过原子工具的组合完成执行。
2.2.2 基于Pi状态运行时的表格任务闭环执行
Pi for Excel完全复用Pi Agent的有状态运行时内核,并针对表格场景优化了任务拆解、结果校验、闭环迭代机制。其核心执行逻辑为:用户下达目标指令→Pi for Excel基于表格数据上下文,自主拆解为可执行的原子步骤→调用对应工具执行→将执行结果回传至大模型进行一致性校验→基于校验结果自主修正(公式错误调试、数据异常标记、步骤遗漏补充)→直至完成最终目标,同步生成任务执行报告与操作说明。
对于单表统计、基础数据拆分等简单任务,可实现端到端的自动执行;对于多维度经营分析、复杂异常波动识别等复杂任务,仍可能出现步骤遗漏、逻辑偏差,需要人工分步引导与干预。
2.2.3 基于Excel原生引擎的公式能力适配
Pi for Excel通过Office.js调用Excel原生引擎,完整兼容Excel全量函数与公式体系,支持复杂数组公式、嵌套函数、跨表引用、跨工作簿数据调用,无需用户手动调整格式或语法。
同时,基于Pi Agent的edit原子工具,Pi for Excel可实现公式的生成、调试、错误定位、参数修正、重新计算的全流程操作,能够缓解传统表格AI“只能生成公式、无法调试纠错”的痛点。需要说明的是,公式的调试与纠错能力完全依赖云端大模型的推理能力,对于复杂嵌套公式、跨工作簿引用场景,仍存在较高的错误率。
2.2.4 轻量化集成设计与端侧执行适配
Pi for Excel的入口集成代码精简,可通过少量代码完成与Excel的基础对接,核心能力适配需基于表格产品的对象模型与API体系做二次开发,无需重构现有表格引擎,具备较低的基础适配成本。
同时,其基于Pi Agent的架构设计,实现了执行层与决策层的分离:表格读取、数据写入、公式执行、格式调整等操作,均在用户本地端侧执行;工具调用决策、逻辑推理、分析总结等任务,需调用云端大模型完成,该设计可一定程度保障用户表格核心数据的安全,符合企业级数据合规的基础要求,同时可降低部分云端算力消耗。
三、WPS引入Pi Agent的适配建议
3.1 核心架构层:借鉴Pi原生内核设计理念,适配WPS现有技术体系
无需重构WPS现有核心技术架构,以Pi Agent的核心设计理念为参考,结合WPS现有产品体系,构建适配WPS的Agent运行时,核心工作包括:
基于WPS文字、表格、演示、PDF、OCR等全组件能力,封装符合Pi极简哲学的原子工具集,避免过度的场景化功能堆砌,同时兼顾办公场景的安全合规与权限管控,保证架构的灵活性与扩展性;
参考Pi Agent的状态运行时与事件驱动机制,结合WPS全端UI体系与交互逻辑做适配开发,实现Agent执行过程的全流程可视化、可干预、可回滚,保障用户体验的流畅性与可控性;
复用Pi Agent的动态模型配置能力,与WPS现有大模型路由调度层深度融合,实现混合模型的最优调度,平衡执行效果与算力成本。
3.2 核心场景层:以表格场景为试点,参考Pi for Excel设计思路,打造WPS表格专属智能体
将表格场景作为Pi Agent架构落地的核心试点,参考Pi for Excel的设计思路与实现范式,打造WPS表格专属智能体,补充WPS AI在表格场景的深度能力,核心工作包括:
基于WPS表格的原生对象模型与API体系,完成Pi Agent架构的轻量化集成,原生兼容WPS表格全量函数、公式、数据透视表、图表体系;
分阶段落地表格场景核心能力,先验证基础的公式全生命周期管理、批量数据自动化处理、单表端到端分析等能力,再逐步扩展跨表跨工作簿联动分析、复杂经营分析等深度场景,解决当前表格AI的核心痛点;
参考Pi for Excel的端侧执行优化方案,结合WPS现有的端侧部署体系,实现基础操作本地执行、复杂推理云端处理,保障用户数据安全,降低云端算力成本。
3.3 生态层:参考开源协作模式,构建可控的WPS Agent开放生态
参考Pi Agent与OpenClaw的开源协作与生态扩展模式,基于适配后的WPS Agent运行时,逐步打造可控的WPS Agent开放平台,释放生态活力,核心工作包括:
分权限、分阶段开放WPS原子工具集与Agent运行时接口,面向第三方开发者、行业合作伙伴,提供低代码的行业专属智能体开发工具,支持合规智能体的开发、上架与分发,兼顾生态活力与安全管控;
基于WPS现有B端客户生态,结合Pi Agent架构已验证的场景方案,重点拓展金融、政务、制造、教育等垂直行业,打造行业专属Agent解决方案,深挖B端市场商业价值;
建立完善的开发者激励与审核体系,在保障合规与安全的前提下,繁荣WPS Agent生态,形成差异化的生态竞争力。