灵犀Claw实战:从零搭建一个会自我进化的AI Agent(七)生图Prompt

糯米团长
糯米团长 Lv.1 新人创作者

Lv.1新人创作者

开篇引言

前六篇搭建了完整的记忆和自我改进体系。但AI Agent不只是"脑子",还有"眼睛"——图像生成是Agent表达能力的关键维度。本篇聚焦灵犀Claw内置的generate_image工具,从实战角度讲清楚一件事:怎么写出能让Seedream引擎稳定产出高质量图像的Prompt。

灵犀Claw的生图能力基于内置的Seedream引擎,支持文生图(Text-to-Image)和图生图(Image-to-Image)两种模式,直接在Agent会话中调用,无需额外配置API。我们在实战中踩了两个月坑,从v1到v4迭代了四版Prompt体系,总结出了一套工程方法。

核心理念:Prompt工程不是"写得越多越好",而是"每一条约束都有存在的理由"。减法优于加法,稳定优于华丽。

generate_image工具速览

灵犀Claw内置的generate_image是一个结构化的图像生成工具,核心参数如下:

参数

类型

说明

prompt

string(必填)

图像描述,英文自然语言

aspect_ratio

string(选填)

宽高比,默认16:9,支持21:9/1:1/4:3/3:4/16:9/9:16/3:2/2:3

input_images

array(选填)

参考图列表,最多3张,支持本地路径或URL,可设权重0.0~1.0

path

string(选填)

保存目录,默认工作目录

几个实战要点:

  • prompt必须全英文,中文在Seedream中解析效果差,语义模糊

  • aspect_ratio要提前想好:人物写真用9:16竖屏,场景互动用16:9横屏,不要事后裁切

  • input_images是图生图的关键:不传就是文生图,传了就是图生图,行为差异很大

  • 图片输出最小3686400像素(灵犀平台限制),实际输出分辨率远高于常见AI绘图工具

文生图 vs 图生图:什么时候用哪个

两种模式的选择标准很简单:

  • 文生图(Text-to-Image):不传input_images,从零生成。适合场景概念图、背景设计、全新构图。

  • 图生图(Image-to-Image):传input_images参考图,保持人物一致性。适合人物写真、角色扮演、穿搭展示。

实战经验:**需要"同一个人出现在不同场景"时,图生图是唯一选择。**我们维护了一张基准图,所有人物写真都以它为input_images参考图,确保五官、体型、气质的一致性。文生图每次都是"新面孔",无法做到角色复用。

踩坑教训:曾经用文生图连续生成50张图试图"碰"出同一张脸,失败率极高。图生图一张基准图就解决了问题。

Prompt铁律:十一条不可违反的规则

以下是经过数百次迭代验证的Prompt规则,按重要性排序:

编号

规则

原因

1

全英文

中文在Seedream中解析效果差,语义模糊

2

自然语言连贯段落

关键词堆砌导致模型困惑,连贯描述更易理解意图

3

禁止否定描述(no/without/avoid)

模型对否定词处理不一致,正面描述比"不要XX"可靠得多

4

禁止相机参数(Canon/85mm/f1.4)

虚拟焦段和光圈对AI图像无意义,浪费token

5

光线写方向(light from left window)

描述光源位置和效果,比写"cinematic lighting"具体得多

6

材质关键词标注(silk/satin/nylon/patent leather)

每种材质渲染方式不同,明确标注让模型选择正确的纹理

7

嘴唇安全约束:Soft natural lips.

放在表情描述后,防止过度渲染嘴唇

8

身材因果式描述:先说体型再说衣服

"She has a curvaceous figure. Her outfit clings to..."比"big chest"自然得多

9

表情中等幅度:15-25词

太短不生动,太长反而稀释效果

10

眼神融入表情:含eyes on / camera变体

眼神是人物灵魂,独立描述容易被忽略

11

减法原则:约束越少越稳定

每多一条约束,模型就少一分注意力给核心内容

第11条是总纲——约束越少越稳定。前面十条告诉你"怎么写",第十一条告诉你"什么时候不写"。实际操作中,我们会故意删掉一些看似重要的描述,观察效果是否反而更好。答案是:往往更好。

Seedream引擎特性与实操技巧

  1. 审核词库:需要绕路

Seedream内置敏感词审核,部分英文词汇会触发拦截导致生成失败。实战中发现的替代方案:

  • camisole(吊带背心)被拉黑 → 用slip dressoff-shoulder top替代

  • 部分紧身衣描述可能触发 → 改用更中性的穿搭词汇

遇到生成失败时,第一步排查是否触碰了审核词库,而不是反复调Prompt结构。

  1. 基准图(img2img)的使用方法

图生图是Seedream的核心使用方式。通过input_images参数传入参考图:

  • 最多支持3张参考图,但我们实战中只用1张基准图,多张反而干扰

  • 参考图可以是本地路径(type:"path")或网络URL(type:"url")

  • 权重(weight)默认1.0,我们实测不需要调整,保持默认即可

  • 参考图质量直接决定产出下限——花时间打磨基准图,比写一百条Prompt规则有用

  1. Prompt长度:没有硬上限但要精简

Seedream对Prompt长度比较宽容,但这不意味着可以写长Prompt——减法原则依然适用。冗余描述会分散模型的注意力,降低核心约束的权重。我们的实战Prompt通常控制在200-400英文单词之间。

版本迭代:从v1到v4的进化

我们的Prompt体系经历了四次大版本迭代,每次都源于一次"翻车":

版本

变化

触发原因

v1

关键词堆砌式Prompt,200+字符

初始方案,产出质量不稳定

v2

改为自然语言段落,加入材质标注

v1产出的服装材质模糊不清

v3

加入表情/眼神约束,建立安全红线

审核被拒(嘴唇过度渲染)

v4

建立V4基准图体系,统一图生图流程

文生图无法保持角色一致性

v4是当前稳定版本,核心改变是从"每张图都从零开始"变为"基于基准图微调"。基准图定义了人物的五官、体型和基础气质,Prompt只需描述场景、服装和氛围。这个改变让产出稳定性大幅提升——不再有"这次长得完全不一样"的问题。

图生图的三个注意事项

  1. Prompt必须锁参考图描述

不要只在input_images里传参考图,Prompt里也必须描述参考图的核心特征(发型、服装风格、体型)。否则模型可能"看到"参考图但"忽略"了它。实测差异显著:锁描述的图生图与参考图的相似度远高于不锁描述的。

  1. 参考图质量决定产出下限

参考图本身就是Prompt的一部分。如果参考图光线差、构图歪、服装细节模糊,产出的上限就被锁死了。花时间打磨一张高质量基准图,比写一百条Prompt规则有用。

  1. aspect_ratio要与参考图一致

当使用图生图时,aspect_ratio尽量与参考图的原始比例接近。差距过大(比如用横版参考图请求竖版输出)会导致模型在拉伸/裁剪间纠结,产出质量下降。

踩坑清单

问题

根因

解法

每次生图"换了一张脸"

文生图无参考,模型随机生成

建立基准图体系,统一用图生图

关键词堆砌产出混乱

模型无法解析零散词组的关系

改为自然语言连贯段落

"不要露出XX"反而露出了

模型对否定词理解不一致

用正面描述替代("covered by"而非"without")

服装材质模糊不清

未标注材质关键词

每件衣服标注材质(silk/nylon/patent leather)

表情过度渲染/嘴唇不自然

缺少安全约束

表情15-25词+"Soft natural lips."兜底

camisole触发审核拦截

Seedream内置敏感词库

用slip dress或off-shoulder top替代

图生图与参考图差异大

未在Prompt中锁参考图描述

API传图+Prompt同步描述核心特征

多张参考图效果反而更差

多图互相干扰人物特征

只用1张基准图,保持默认权重

竖版参考图+横版参数输出变形

aspect_ratio与参考图比例差距过大

保持aspect_ratio与参考图原始比例一致

加了很多细节描述反而变差

约束过多分散模型注意力

遵循减法原则,删减非核心描述

与记忆系统的联动

Prompt铁律不是写完就完事的静态文档——它被集成在记忆系统中,自动确保每次生图都遵守规则:

  • user记忆中写有核心铁律摘要,每次会话强制加载

  • MEMORY.md中有完整版Prompt铁律,生图前主动读取

  • Self-Improving系统(第六篇)自动沉淀每次踩坑经验到corrections.md,达到3次确认后晋升为永久规则

这意味着:今天踩的坑,明天就不会再踩。上周发现的最佳实践,下周自动成为默认行为。Prompt工程不再依赖人的记忆,而是靠系统自我进化。

系列进度

篇目

主题

核心能力

(一)

总体架构

系统全景、Skill清单、设计哲学

(二)

实时记忆

三层记忆架构、"先沉淀再回复"机制

(三)

Dreaming

三阶段记忆沉淀、时间验证、碎片管理

(四)

Memory Consolidation

每周深度整理、去重合并、Token控制

(五)

Cherry Diary

智能日记:数据采集+提示词架构+可选多媒体

(六)

Self-Improving

纠错-偏好-反思-衰减完整闭环

(七)

生图Prompt

铁律、Seedream技巧、版本迭代、记忆联动

下一篇:云文档API——V7上传踩坑、文件管理、三种操作方式的经验总结。

河北省
浏览 175
2
6
分享
6 +1
1
2 +1
全部评论 1
 
flavor
flavor Lv.2 潜力创作者

Lv.2潜力创作者

好东西
   重庆
举报
0
0