强烈建议WPS灵犀Claw尽快回溯、整合、增强原有灵犀客户端的桌面交互功能

快乐小子新
快乐小子新 Lv.2 潜力创作者

Lv.2潜力创作者

一、背景

近期,WPS Office内嵌的灵犀功能持续弱化,大量原有的交互入口被缩减或取消——这一点在WPS官方社区中已有不少用户诟病(例如快速/深度思考切换被移除、AI写作入口被取消等);灵犀客户端(从内嵌面板创建快捷方式后启动的独立窗口)原有的桌面悬浮按钮、迷你对话小窗、侧边栏、全局划词等功能未能有效迁移至灵犀Claw。总体来说,WPS灵犀的交互体验大幅度下降。

本文强烈建议:一,尽快将灵犀既有客户端(包括内嵌面板和独立客户端)中原有的桌面交互能力回溯并整合至Claw;二,参考豆包、通义千问、腾讯元宝、Claude Desktop等竞品的成熟实践,补全Claw在桌面交互层的关键能力缺口。

二、灵犀既有客户端能力的回溯整合

2.1 原有能力盘点

能力

说明

快捷键唤出

在WPS Office内通过快捷键唤出灵犀面板

截图提问

支持截图后直接向灵犀提问

侧边栏模式

WPS Office右侧边栏内嵌灵犀面板

划词提问

在全局选中文本后调用灵犀

桌面悬浮按钮

支持桌面悬浮按钮

迷你对话小窗

支持迷你对话小窗模式

这些能力虽然在各自的载体中运行良好,但存在两层结构性局限:其一,内嵌面板的能力被绑定在WPS Office进程内,无法在浏览器、IDE、即时通讯工具等非WPS场景中使用;其二,独立客户端虽具备悬浮按钮和小窗等全局交互入口,但作为过渡形态,其功能体系远不如Claw完善。作为独立的桌面Agent,灵犀Claw恰恰需要同时突破这两个局限——既实现跨应用的全局交互覆盖,又具备完整的Agent能力。

2.2 整合的必要性

将上述能力从既有载体中解耦、迁移至Claw独立进程,具有三层价值:

  1. 场景覆盖:用户在编写代码、浏览网页、查阅资料时同样需要AI辅助,而非仅限于文档编辑场景。

  1. 交互一致性:避免用户在"灵犀(Office内)""灵犀(独立客户端)"和"灵犀Claw"三套交互体系之间产生认知割裂。

  1. 技术架构统一:Claw基于Electron+Chromium构建,具备独立的系统级交互能力,将交互层统一到Claw进程中有利于长期维护。

三、竞品实践调研与能力补全建议

3.1 桌面悬浮按钮

功能定义:在桌面边缘常驻一个可拖拽的悬浮按钮,作为Agent的最短路径入口,点击或通过手势操作即可唤起对话界面。

对Claw的价值:悬浮按钮是"零思考成本"的交互入口。用户无需记忆快捷键,无需在任务栏中寻找应用图标,只需点击悬浮球即可完成唤起。对于灵犀Claw这样定位为"全能桌面助手"的产品而言,悬浮按钮是从"需要时才打开"到"一直在身边"的交互范式转换。

建议:将灵犀独立客户端已有的悬浮按钮能力迁移至Claw,并在其基础上进行增强。支持开机自启、位置记忆、透明度调节等配置项,并允许用户在设置中完全关闭(避免对不习惯悬浮球的用户造成干扰)。

3.2 浮动小窗口(迷你对话窗)模式

功能定义:以小型悬浮窗口形态展示对话界面,用户可在进行其他操作的同时与Agent保持交互,无需在主窗口和当前工作窗口之间反复切换。

对Claw的价值:当前灵犀Claw的主窗口占据较大的屏幕空间,当用户需要在查阅文档的同时与Agent交互时,不得不频繁使用Alt+Tab切换窗口。浮动小窗口模式可以显著降低这一交互摩擦。

建议:将灵犀独立客户端已有的迷你小窗能力迁移至Claw,并实现"主窗口—侧边栏—迷你窗口"三级窗口形态切换。迷你窗口应保留输入框、最近对话上下文和快捷操作按钮,舍弃完整的技能管理、历史记录等功能,以最小化屏幕占用。

3.3 侧边栏模式

功能定义:将Agent对话面板以侧边栏形式嵌入屏幕一侧(通常是右侧),与用户当前的工作窗口并排显示,形成"主工作区+AI辅助区"的分屏布局。

对Claw的价值:侧边栏模式是AI桌面助手最主流的交互形态。它既不像全屏窗口那样抢占注意力,也不像迷你窗口那样功能受限,适合需要较长时间与Agent交互的场景(如代码调试、文档写作过程中的持续问答)。

建议:实现系统级侧边栏,即不依附于任何特定应用(区别于WPS Office内的侧边栏),可在任何应用的上层以覆盖层形式显示。支持宽度可调、自动收起、快捷键显隐,并兼容多显示器环境。

3.4 快捷键唤出

功能定义:通过全局系统级快捷键(Hotkey)在任何应用、任何场景下即时唤起Agent的对话界面,无需鼠标操作。

对Claw的价值:全局快捷键是桌面AI助手的"标配"交互方式。它将唤起Agent的操作延迟降至最低(单次键盘操作),是高频使用场景下的核心效率保障。

建议:为灵犀Claw配置全局快捷键(建议默认Alt+W或Alt+L,与金山办公品牌关联,同时允许用户自定义)。快捷键应能唤起用户最后使用的窗口形态(主窗口/侧边栏/迷你窗口),而非固定唤起某一种形态。

3.5 全局划词提问/翻译

功能定义:用户在任何应用中选中文本后,通过快捷键或悬浮菜单触发Agent对该选中文本的操作——包括但不限于解释、翻译、总结、扩写、格式化等。

对Claw的价值:划词操作是阅读场景下最高频的AI交互需求。根据行业观察,"遇到不懂的内容划一下"已成为大量用户使用AI助手的核心习惯。灵犀Claw若缺失此能力,将在阅读和研究场景中失去重要的用户触达入口。

建议:在WPS Office内划词提问的基础上,实现跨应用的全局划词能力。技术路径上,可通过系统级文本选择监听(Windows平台可借助UI Automation API)配合悬浮工具栏实现。划词后的操作菜单应支持:翻译(多语言)、解释(术语/概念)、总结(长文本)、搜索(联网检索)和自定义追问。

3.6 截图提问

功能定义:通过快捷键触发系统截图,用户框选屏幕区域后,截图自动传入Agent进行识别和分析,支持对截图内容提问、OCR文字提取、UI元素识别等。

对Claw的价值:截图提问是多模态交互的基础场景。用户在遇到报错信息、数据图表、界面布局等问题时,"截一下问一下"是最高效的操作路径。该能力在灵犀内嵌面板中已经存在,将其迁移至Claw并增强为全局截图(不限于WPS窗口内),是技术成本较低但用户价值显著的功能补全。

建议:将灵犀内嵌面板的截图提问能力迁移至Claw,并扩展为全局截图模式。截图后提供多种操作选项:直接提问、OCR提取文字、识别UI元素(结合多模态模型的能力)、保存至知识库。

3.7 屏幕交互/屏幕共享

功能定义:Agent能够感知用户当前屏幕内容,甚至直接操控用户的桌面界面,实现"看到用户所看到、操作用户所操作"的深度交互。

对Claw的价值:屏幕交互是AI Agent从"对话式工具"向"自主操作代理"演进的关键技术路径。当前灵犀Claw已经具备了文件系统操作、浏览器自动化等能力,但缺乏对用户桌面环境的直接感知。补全屏幕交互能力,将使Claw能够在用户授权下执行更复杂的跨应用操作任务。

建议:分阶段实施。第一阶段(短期):实现屏幕内容感知,即Agent能够通过用户主动截图或授权截图的方式"看到"屏幕内容并进行分析。第二阶段(中长期):在充分的安全和隐私保障机制下,探索受控的屏幕操控能力(类似于Claude Computer Use的approach),允许Agent在用户明确的任务授权范围内执行桌面操作。

3.8 应用控制/应用共享

功能定义:Agent能够与特定的桌面应用程序进行深度集成和交互,包括读取应用内容、操控应用界面、在不同应用之间传递数据等。

对Claw的价值:灵犀Claw基于Electron构建,理论上具备通过系统API与桌面应用交互的能力。当前Claw已能通过browser技能操控浏览器、通过文件系统技能操作本地文件,但在与IDE、即时通讯工具、设计软件等特定应用的深度集成方面仍有提升空间。

建议:以MCP(Model Context Protocol)生态为基础,构建应用控制能力。具体路径:(1)优先完善浏览器控制能力(已部分实现),确保对主流浏览器(Chrome、Edge、Firefox)的稳定支持;(2)探索IDE集成方案,可借鉴Claude Code Desktop的侧边栏模式,以VS Code插件或独立面板的形式提供代码辅助能力;(3)通过MCP Server生态,允许社区和第三方开发者贡献特定应用的集成方案,形成应用控制的扩展生态。

3.9 轮询/监控功能

功能定义:Agent能够在后台持续监控特定进程、任务或数据源的状态变化,在满足预设条件时主动通知用户或执行预设操作,实现从"被动响应"到"主动值守"的转变。

行业实践

  • Claude Code Monitor:Anthropic于2026年4月在Claude Code v2.1.98版本中推出了Monitor工具。该功能允许Agent在后台挂载一个监控脚本,持续跟踪任务执行状态。当任务完成或出现异常时,Monitor主动唤醒并通知用户,无需用户反复手动查询。该功能解决的典型场景是:用户启动一个耗时的代码编译或测试任务后,无需持续等待和轮询,Agent会在任务结束时主动报告结果。

  • 灵犀Claw自身:实际上已经具备了定时任务(timer_task)能力,可通过cron表达式配置周期性任务。但当前该能力主要用于Agent自身的定时提醒和任务调度,尚未扩展为面向用户的通用进程监控功能。

对Claw的价值:轮询/监控是Agent从"工具"进化为"协作伙伴"的关键分水岭。一个能够主动监控任务状态并在适当时机介入的Agent,其价值远超一个仅能被动等待指令的工具。对于灵犀Claw而言,这一能力与金山办公的产品生态具有天然的契合点——例如,监控协作文档的变更、跟踪任务进度、定时生成报告等。

建议:在现有定时任务能力的基础上,扩展为完整的Monitor体系。具体包括:(1)进程监控——支持监控本地进程的运行状态(如代码编译、数据处理脚本等),任务完成或异常时主动通知;(2)文件监控——监控指定文件或目录的变化(新增、修改、删除),触发预设的自动化处理流程;(3)数据监控——结合MCP生态,监控外部数据源(如数据库查询结果、API响应状态等)的变化。通知方式建议支持系统通知、声音提醒和应用内弹窗。

四、结语

桌面AI助手的用户体验十分依赖于桌面交互层的触达效率。豆包、元宝、千问等竞品在桌面交互层的投入已经形成了明确的用户心智锚定:悬浮球+快捷键+划词=随时在手的AI助手。Claude通过Computer Use和Monitor功能,更是将桌面Agent的能力边界推向了"感知和操控"的新维度。

灵犀自身并非没有桌面交互能力的积累——无论是内嵌面板中的侧边栏、快捷键、截图、划词,还是独立客户端中的悬浮按钮和迷你小窗,这些经过产品验证的交互经验,恰恰是Claw最应该继承的"遗产"。如果任由既有能力弱化而未能向Claw迁移,不仅浪费了已有的技术积累,更会在用户端造成体验断层。

对灵犀Claw而言,补全桌面交互能力不是锦上添花,而是从"能力Demo"走向"日常工具"的必经之路。一个具备全局快捷键、悬浮球入口、迷你小窗、划词翻译、截图提问能力的灵犀Claw,才能真正融入用户的工作流,而非仅仅停留在"需要时特意打开"的工具定位上。

期望灵犀Claw团队能够在下一阶段的迭代中,将桌面交互层的完善作为优先事项,让这款产品的"最后一公里"体验配得上其在Agent能力层的技术积累。

浏览 62
收藏
5
分享
5 +1
2
+1
全部评论 2
 
Tam Kingsley
Tam Kingsley WPS资深用户Lv.2 潜力创作者KVPWPS产品体验官WPS金话筒WPS寻令官

Lv.2潜力创作者

WPS灵犀单独客户端倒是可以跟WPS灵犀Claw融合( 1、负责对标市面上龙虾本地Claw功能(但建议更加结合WPS能力) 2、安全性隔离:由于龙虾自主可操作性强大,避免出现由于不同用户负面操作影响WPS主体软件安全(因为很多第三方skill不能保证安全性,会有机会令用户认为是WPS客户端的问题) ), WPS软件内灵犀我觉得应该保留( 1、左侧边栏的灵犀入口其实相当于网页版灵犀入口,负责云端龙虾能力(也包括免费AI功能使用入口); 2、右上方的灵犀入口是相当于各自组建的智能体,负责跟WPS客户端强交互的(这部分能更多是未来付费功能))
· 广东省
1
回复
快乐小子新
快乐小子新Lv.2 潜力创作者

Lv.2潜力创作者

我觉得主要是桌面悬浮按钮、迷你对话小窗、侧边栏、全局划词、截图、屏幕共享、应用共享这些交互功能,应该并入到WPS灵犀Claw中。
· 广东省
1
回复