【科普】WPS灵犀Claw的内置工具(二)
- start_write_file 与 end_write_file 工具
这两个工具是一对配合使用的工具,共同构成系统的"写作模式"机制。
start_write_file — 开启写作模式
基本信息
属性 | 说明 |
功能 | 准备向文件写入内容 |
作用 | 将输出模式从"聊天消息"切换为"文件写入" |
参数说明
参数名 | 类型 | 是否必填 | 说明 |
path | string | 是 | 目标文件路径,支持绝对路径或工作目录的相对路径 |
mode | string | 否 | 写入模式:write(覆盖,默认)/ append(追加) |
brief | string | 否 | 简要描述操作目的(用于操作日志) |
mode 模式对比
模式 | 说明 | 适用场景 |
write(默认) | 覆盖文件原有内容 | 创建新文件、重新生成文件 |
append | 在文件末尾追加内容 | 向已有文件追加内容、分段写入 |
工作原理
调用 start_write_file 后,后续的所有输出(文本内容)将直接写入磁盘文件,而不作为聊天消息展示给用户。直到调用 end_write_file 为止。
end_write_file — 结束写作模式
基本信息
属性 | 说明 |
功能 | 结束写作模式,保存内容到文件 |
作用 | 将 start_write_file 之后输出的所有文本捕获并写入文件 |
参数说明
参数名 | 类型 | 是否必填 | 说明 |
brief | string | 否 | 简要描述操作目的(用于操作日志) |
工作原理
调用时不需要传入 content 参数 — 直接调用即可
在 start_write_file 之后、end_write_file 之前输出的所有文本会被自动捕获并写入目标文件
调用后输出模式恢复为正常的聊天消息
配合使用流程
步骤1: 调用 start_write_file(path="output/report.md", mode="write")
→ 指定目标文件,进入写作模式
步骤2: 输出文件内容(纯文本)
→ 这些内容不会显示给用户,而是被捕获
步骤3: 调用 end_write_file()
→ 将捕获的内容写入文件,退出写作模式示意图
用户消息 → AI 回复(正常聊天)
→ start_write_file("report.md")
→ 输出文本 A(写入文件,不展示)
→ 输出文本 B(写入文件,不展示)
→ 输出文本 C(写入文件,不展示)
→ end_write_file()
→ 文件保存完成
→ AI 回复(正常聊天,告知用户文件已生成)典型应用场景
场景 | 说明 |
生成 Markdown 文档 | AI 直接输出结构化文本保存为 .md 文件 |
生成 HTML 页面 | AI 输出 HTML 代码保存为 .html 文件 |
写入配置文件 | AI 生成 YAML/JSON/TOML 等配置文本 |
生成代码文件 | AI 输出 Python/JavaScript 等源代码 |
分段追加日志 | 使用 append 模式向日志文件持续追加内容 |
start_write_file 和 end_write_file 是一对文件写入开关工具,前者开启"写作模式"使输出重定向到文件,后者关闭模式并保存内容。其核心优势是让 AI 可以将自身生成的文本直接持久化为文件,无需通过 Python 代码中转。
- generate_image 工具
基本信息
属性 | 说明 |
功能 | 通过 AI 模型生成图像,支持文生图和图生图两种模式 |
最小像素 | 3686400 像素(保证高质量输出) |
参数说明
参数名 | 类型 | 是否必填 | 说明 |
prompt | string | 是 | 图像生成提示词,建议英文,包含风格、构图、光线、主体等细节 |
brief | string | 否 | 一句话描述本次生图目的 |
width | integer | 否 | 图片宽度(像素),默认 2560 |
height | integer | 否 | 图片高度(像素),默认 1440 |
aspect_ratio | string | 否 | 宽高比,默认 16:9 |
input_images | array | 否 | 图生图模式的参考图片列表 |
path | string | 否 | 图片保存目录的绝对路径,默认为工作目录 |
两种生成模式
模式一:文生图(Text-to-Image)
仅通过文字描述生成图像,不需要参考图片。这是最常用的模式。
调用方式: 只提供 prompt 参数即可。
示例 prompt:
A professional McKinsey-style business chart showing global market growth trends,
clean modern design, blue and white color scheme, high resolution,
flat design illustration, corporate presentation style模式二:图生图(Image-to-Image)
基于参考图片进行风格迁移、修改或变体生成。
调用方式: 通过 input_images 参数提供参考图片。
input_images 数组中每项的结构:
字段 | 类型 | 是否必填 | 说明 |
type | string | 是 | 参考图来源:path(本地文件路径)/ url(网络地址) |
path | string | type 为 path 时必填 | 参考图片的本地绝对路径 |
url | string | type 为 url 时必填 | 参考图片的网络 URL |
weight | number | 否 | 参考强度 0.0~1.0,默认 1.0,值越大与参考图越相似 |
input_images 示例:
[
{
"type": "path",
"path": "D:\\images\\reference.png",
"weight": 0.8
}
][
{
"type": "url",
"url": "https://example.com/photo.jpg",
"weight": 0.6
}
]aspect_ratio 宽高比选项
值 | 比例 | 典型用途 |
16:9(默认) | 宽屏横向 | 幻灯片封面、网页横幅、视频封面 |
1:1 | 正方形 | 社交媒体头像、图标、缩略图 |
4:3 | 标准横向 | 传统演示文稿、文档插图 |
3:4 | 标准纵向 | 书籍封面、竖版海报 |
9:16 | 竖屏 | 手机壁纸、短视频封面、竖版海报 |
3:2 | 摄影横向 | 摄影作品、风景照风格 |
2:3 | 摄影纵向 | 人像摄影风格、竖版摄影 |
返回结果
生成完成后,工具会同时返回两种访问方式:
返回内容 | 说明 |
图片 URL | 网络可访问的链接,可直接嵌入 HTML 或 Markdown |
沙箱本地路径 | 本地文件系统路径,可供后续工具引用 |
prompt 编写最佳实践
一个好的 prompt 应包含以下要素:
要素 | 说明 | 示例 |
主体 | 画面中的核心对象 | a modern office building |
风格 | 视觉艺术风格 | watercolor, flat design, photorealistic |
构图 | 画面布局方式 | centered composition, bird's eye view |
光线 | 光照条件 | soft natural light, golden hour, dramatic lighting |
色调 | 颜色倾向 | blue and white color scheme, warm tones |
细节 | 补充细节 | high resolution, clean background, minimalist |
用途 | 预期使用场景 | corporate presentation style |
与其他工具的协作
协作工具 | 协作方式 |
start_write_file / end_write_file | 生成图片后,将图片 URL 嵌入 HTML 或 Markdown 文件中 |
view_image | 先用 generate_image 生成,再用 view_image 分析或验证生成结果 |
init_slides | 生成幻灯片所需的插图、背景图、封面图 |
典型应用场景
场景 | 说明 |
文档插图 | 为报告、论文生成示意图、概念图 |
PPT 素材 | 生成幻灯片封面、背景图、装饰元素 |
风格迁移 | 基于参考图生成同风格变体 |
网页素材 | 为网站生成横幅、图标等视觉元素 |
数据可视化辅助 | 生成信息图背景、图标等补充素材 |
generate_image 是系统的AI 图像生成工具,支持文生图和图生图两种模式,可控制尺寸、宽高比和参考强度,生成的图片同时提供网络 URL 和本地路径,便于嵌入文档或供后续工具使用。
- view_image 工具
基本信息
属性 | 说明 |
功能 | 通过视觉模型分析图片,返回文字描述或针对具体问题的回答 |
核心能力 | 图像理解,而非图像生成 |
参数说明
参数名 | 类型 | 是否必填 | 说明 |
question | string | 是 | 关于图片的问题 |
type | string | 是 | 图片来源类型:path(本地文件)/ url(网络地址) |
paths | array | type 为 path 时必填 | 图片文件的绝对路径列表,最多 5 张 |
urls | array | type 为 url 时必填 | 图片的 URL 列表,最多 5 张 |
brief | string | 否 | 一句话描述此次看图操作目的 |
支持的图片格式
格式 | 扩展名 |
PNG | .png |
JPEG | .jpg / .jpeg |
GIF | .gif |
BMP | .bmp |
WebP | .webp |
TIFF | .tiff |
两种图片来源
来源一:本地文件(path)
通过本地绝对路径指定图片。
{
"question": "描述这张图片的内容",
"type": "path",
"paths": ["D:\\images\\photo1.png", "D:\\images\\photo2.jpg"]
}来源二:网络地址(url)
通过网络 URL 指定图片。
{
"question": "这张图片中有什么文字?",
"type": "url",
"urls": ["https://example.com/image.png"]
}多图分析能力
view_image 支持同时分析最多 5 张图片,这使得它可以处理需要跨图比较或综合分析的场景。
多图分析要点:
能力 | 说明 |
同时上传 | 一次调用中传入多张图片的路径或 URL |
数量上限 | 最多 5 张,超出会报错 |
来源混合 | 仅限同一类型(全部 path 或全部 url),不可混用 |
综合回答 | 视觉模型会综合所有图片内容回答问题 |
多图分析应用场景:
对比多张图片的差异
从多张截图中提取综合信息
分析系列图片的规律或趋势
验证多张生成图片的质量
question 编写指南
question 决定了分析的方向和深度,以下是常见问题类型:
问题类型 | 示例 | 适用场景 |
内容描述 | "详细描述这张图片的内容" | 了解图片整体信息 |
文字提取(OCR) | "图片中有哪些文字?" | 从截图、照片中提取文字 |
数据读取 | "读取图表中的数据值" | 从可视化图表中获取数据 |
元素识别 | "图片中有哪些人物/物体?" | 目标检测与识别 |
对比分析 | "这两张图有什么区别?" | 多图对比 |
风格判断 | "这张图的设计风格是什么?" | 设计参考分析 |
质量评估 | "这张图片的质量如何?有什么问题?" | 生成结果验证 |
与其他工具的协作
协作工具 | 协作方式 |
generate_image | 生成图片后,用 view_image 验证生成质量或分析内容 |
jupyter_cell_exec | 用代码处理/下载图片后,用 view_image 分析结果 |
speech_to_text | 先用 view_image 从截图中提取文字,再补充音频转写 |
PDF / 浏览器技能 | 从 PDF 或网页中提取图片后进行分析 |
典型应用场景
场景 | 说明 |
截图内容提取 | 分析用户截图,提取其中的文字、数据或界面信息 |
图表数据读取 | 从柱状图、折线图、饼图中读取具体数值 |
生成结果验证 | 检查 generate_image 生成的图片是否符合预期 |
图片描述 | 为无文字描述的图片生成文字说明 |
多图对比 | 比较多张方案的视觉差异 |
文档截图分析 | 从文档截图提取结构化信息 |
view_image 是系统的图像理解工具,通过视觉模型对图片进行"看"和"分析",支持本地文件和网络 URL 两种来源,最多同时处理 5 张图片,可执行内容描述、OCR 文字提取、数据读取、质量评估等多种分析任务。