12.2.1 图像生成路线图:提示词、控制、审核
图像生成不是写一句提示词就结束,而是一套工作流:明确意图,记录提示词和参数,选择控制方式,对候选图做比较和审核。



先养成一个习惯:记录你要什么、用了哪种模式、哪些 seed 或参数影响结果,以及导出前必须审核什么。
建一个提示词记录
Section titled “建一个提示词记录”import json
brief = { "topic": "RAG basics", "audience": "beginners", "style": "clean editorial cover",}prompt = f"{brief['style']} for {brief['topic']}, friendly visual metaphor for {brief['audience']}, clear layout"record = { "mode": "text-to-image", "prompt": prompt, "negative_prompt": "blurry, watermark, unreadable text", "seed": 42, "review": ["legibility", "copyright", "brand safety"],}
print(json.dumps(record, indent=2))预期输出:
{ "mode": "text-to-image", "prompt": "clean editorial cover for RAG basics, friendly visual metaphor for beginners, clear layout", "negative_prompt": "blurry, watermark, unreadable text", "seed": 42, "review": [ "legibility", "copyright", "brand safety" ]}
如果提示词记录无法复现,后面就很难稳定改图。
按这个顺序学
Section titled “按这个顺序学”| 步骤 | 阅读内容 | 练习产物 |
|---|---|---|
| 1 | 扩散直觉 | 解释加噪、去噪、seed、采样 |
| 2 | Stable Diffusion 组件 | 画出 text encoder、U-Net、VAE、latent space |
| 3 | 应用与控制 | 对比 text-to-image、image-to-image、inpainting、ControlNet、LoRA |
你能写出提示词记录,解释为什么选择某种生成模式,保存 3 个候选图备注,并在导出前标记至少 1 个审核风险,就算通过本章。
检查思路与讲解
- 合格答案要说清涉及哪些模态、输入输出契约是什么,以及文字、图像、音频或视频证据如何对齐。
- 证据应包含真实媒体产物或 trace,并附上质量、安全和失败案例说明。
- 自检时要能判断任务需要的是生成、理解、检索、工具编排还是人工复核,而不是把所有多模态问题都当成同一种 demo。
学完这一页,至少保留这张证据卡:
- 提示词记录
- 提示词、负面要求、参考、seed/model,以及版本号
- 候选输出
- 生成或模拟的结果及选择原因
- 技术备注
- 扩散步、潜变量、cross-attention、LoRA 或应用模式
- 失败检查
- 提示漂移、风格不匹配、产物、版权、肖像或复核失败
- 期望产出
- 选定图片/版本记录加被拒候选说明