灵犀Claw实战:从零搭建一个会自我进化的AI Agent(七)生图Prompt
Lv.1新人创作者
开篇引言
前六篇搭建了完整的记忆和自我改进体系。但AI Agent不只是"脑子",还有"眼睛"——图像生成是Agent表达能力的关键维度。本篇聚焦灵犀Claw内置的generate_image工具,从实战角度讲清楚一件事:怎么写出能让Seedream引擎稳定产出高质量图像的Prompt。
灵犀Claw的生图能力基于内置的Seedream引擎,支持文生图(Text-to-Image)和图生图(Image-to-Image)两种模式,直接在Agent会话中调用,无需额外配置API。我们在实战中踩了两个月坑,从v1到v4迭代了四版Prompt体系,总结出了一套工程方法。
generate_image工具速览
灵犀Claw内置的generate_image是一个结构化的图像生成工具,核心参数如下:
参数 | 类型 | 说明 |
prompt | string(必填) | 图像描述,英文自然语言 |
aspect_ratio | string(选填) | 宽高比,默认16:9,支持21:9/1:1/4:3/3:4/16:9/9:16/3:2/2:3 |
input_images | array(选填) | 参考图列表,最多3张,支持本地路径或URL,可设权重0.0~1.0 |
path | string(选填) | 保存目录,默认工作目录 |
几个实战要点:
prompt必须全英文,中文在Seedream中解析效果差,语义模糊
aspect_ratio要提前想好:人物写真用9:16竖屏,场景互动用16:9横屏,不要事后裁切
input_images是图生图的关键:不传就是文生图,传了就是图生图,行为差异很大
图片输出最小3686400像素(灵犀平台限制),实际输出分辨率远高于常见AI绘图工具
文生图 vs 图生图:什么时候用哪个
两种模式的选择标准很简单:
文生图(Text-to-Image):不传input_images,从零生成。适合场景概念图、背景设计、全新构图。
图生图(Image-to-Image):传input_images参考图,保持人物一致性。适合人物写真、角色扮演、穿搭展示。
实战经验:**需要"同一个人出现在不同场景"时,图生图是唯一选择。**我们维护了一张基准图,所有人物写真都以它为input_images参考图,确保五官、体型、气质的一致性。文生图每次都是"新面孔",无法做到角色复用。
Prompt铁律:十一条不可违反的规则
以下是经过数百次迭代验证的Prompt规则,按重要性排序:
编号 | 规则 | 原因 |
1 | 全英文 | 中文在Seedream中解析效果差,语义模糊 |
2 | 自然语言连贯段落 | 关键词堆砌导致模型困惑,连贯描述更易理解意图 |
3 | 禁止否定描述(no/without/avoid) | 模型对否定词处理不一致,正面描述比"不要XX"可靠得多 |
4 | 禁止相机参数(Canon/85mm/f1.4) | 虚拟焦段和光圈对AI图像无意义,浪费token |
5 | 光线写方向(light from left window) | 描述光源位置和效果,比写"cinematic lighting"具体得多 |
6 | 材质关键词标注(silk/satin/nylon/patent leather) | 每种材质渲染方式不同,明确标注让模型选择正确的纹理 |
7 | 嘴唇安全约束:Soft natural lips. | 放在表情描述后,防止过度渲染嘴唇 |
8 | 身材因果式描述:先说体型再说衣服 | "She has a curvaceous figure. Her outfit clings to..."比"big chest"自然得多 |
9 | 表情中等幅度:15-25词 | 太短不生动,太长反而稀释效果 |
10 | 眼神融入表情:含eyes on / camera变体 | 眼神是人物灵魂,独立描述容易被忽略 |
11 | 减法原则:约束越少越稳定 | 每多一条约束,模型就少一分注意力给核心内容 |
第11条是总纲——约束越少越稳定。前面十条告诉你"怎么写",第十一条告诉你"什么时候不写"。实际操作中,我们会故意删掉一些看似重要的描述,观察效果是否反而更好。答案是:往往更好。
Seedream引擎特性与实操技巧
- 审核词库:需要绕路
Seedream内置敏感词审核,部分英文词汇会触发拦截导致生成失败。实战中发现的替代方案:
camisole(吊带背心)被拉黑 → 用slip dress或off-shoulder top替代
部分紧身衣描述可能触发 → 改用更中性的穿搭词汇
遇到生成失败时,第一步排查是否触碰了审核词库,而不是反复调Prompt结构。
- 基准图(img2img)的使用方法
图生图是Seedream的核心使用方式。通过input_images参数传入参考图:
最多支持3张参考图,但我们实战中只用1张基准图,多张反而干扰
参考图可以是本地路径(type:"path")或网络URL(type:"url")
权重(weight)默认1.0,我们实测不需要调整,保持默认即可
参考图质量直接决定产出下限——花时间打磨基准图,比写一百条Prompt规则有用
- Prompt长度:没有硬上限但要精简
Seedream对Prompt长度比较宽容,但这不意味着可以写长Prompt——减法原则依然适用。冗余描述会分散模型的注意力,降低核心约束的权重。我们的实战Prompt通常控制在200-400英文单词之间。
版本迭代:从v1到v4的进化
我们的Prompt体系经历了四次大版本迭代,每次都源于一次"翻车":
版本 | 变化 | 触发原因 |
v1 | 关键词堆砌式Prompt,200+字符 | 初始方案,产出质量不稳定 |
v2 | 改为自然语言段落,加入材质标注 | v1产出的服装材质模糊不清 |
v3 | 加入表情/眼神约束,建立安全红线 | 审核被拒(嘴唇过度渲染) |
v4 | 建立V4基准图体系,统一图生图流程 | 文生图无法保持角色一致性 |
v4是当前稳定版本,核心改变是从"每张图都从零开始"变为"基于基准图微调"。基准图定义了人物的五官、体型和基础气质,Prompt只需描述场景、服装和氛围。这个改变让产出稳定性大幅提升——不再有"这次长得完全不一样"的问题。
图生图的三个注意事项
- Prompt必须锁参考图描述
不要只在input_images里传参考图,Prompt里也必须描述参考图的核心特征(发型、服装风格、体型)。否则模型可能"看到"参考图但"忽略"了它。实测差异显著:锁描述的图生图与参考图的相似度远高于不锁描述的。
- 参考图质量决定产出下限
参考图本身就是Prompt的一部分。如果参考图光线差、构图歪、服装细节模糊,产出的上限就被锁死了。花时间打磨一张高质量基准图,比写一百条Prompt规则有用。
- aspect_ratio要与参考图一致
当使用图生图时,aspect_ratio尽量与参考图的原始比例接近。差距过大(比如用横版参考图请求竖版输出)会导致模型在拉伸/裁剪间纠结,产出质量下降。
踩坑清单
问题 | 根因 | 解法 |
每次生图"换了一张脸" | 文生图无参考,模型随机生成 | 建立基准图体系,统一用图生图 |
关键词堆砌产出混乱 | 模型无法解析零散词组的关系 | 改为自然语言连贯段落 |
"不要露出XX"反而露出了 | 模型对否定词理解不一致 | 用正面描述替代("covered by"而非"without") |
服装材质模糊不清 | 未标注材质关键词 | 每件衣服标注材质(silk/nylon/patent leather) |
表情过度渲染/嘴唇不自然 | 缺少安全约束 | 表情15-25词+"Soft natural lips."兜底 |
camisole触发审核拦截 | Seedream内置敏感词库 | 用slip dress或off-shoulder top替代 |
图生图与参考图差异大 | 未在Prompt中锁参考图描述 | API传图+Prompt同步描述核心特征 |
多张参考图效果反而更差 | 多图互相干扰人物特征 | 只用1张基准图,保持默认权重 |
竖版参考图+横版参数输出变形 | aspect_ratio与参考图比例差距过大 | 保持aspect_ratio与参考图原始比例一致 |
加了很多细节描述反而变差 | 约束过多分散模型注意力 | 遵循减法原则,删减非核心描述 |
与记忆系统的联动
Prompt铁律不是写完就完事的静态文档——它被集成在记忆系统中,自动确保每次生图都遵守规则:
user记忆中写有核心铁律摘要,每次会话强制加载
MEMORY.md中有完整版Prompt铁律,生图前主动读取
Self-Improving系统(第六篇)自动沉淀每次踩坑经验到corrections.md,达到3次确认后晋升为永久规则
这意味着:今天踩的坑,明天就不会再踩。上周发现的最佳实践,下周自动成为默认行为。Prompt工程不再依赖人的记忆,而是靠系统自我进化。
系列进度
篇目 | 主题 | 核心能力 |
(一) | 总体架构 | 系统全景、Skill清单、设计哲学 |
(二) | 实时记忆 | 三层记忆架构、"先沉淀再回复"机制 |
(三) | Dreaming | 三阶段记忆沉淀、时间验证、碎片管理 |
(四) | Memory Consolidation | 每周深度整理、去重合并、Token控制 |
(五) | Cherry Diary | 智能日记:数据采集+提示词架构+可选多媒体 |
(六) | Self-Improving | 纠错-偏好-反思-衰减完整闭环 |
(七) | 生图Prompt | 铁律、Seedream技巧、版本迭代、记忆联动 |
下一篇:云文档API——V7上传踩坑、文件管理、三种操作方式的经验总结。
Lv.2潜力创作者