跳转到内容

12.2.1 图像生成路线图:提示词、控制、审核

图像生成不是写一句提示词就结束,而是一套工作流:明确意图,记录提示词和参数,选择控制方式,对候选图做比较和审核。

图像生成章节学习流程图

Stable Diffusion 应用模式选择图

Stable Diffusion 微调路线选择图

先养成一个习惯:记录你要什么、用了哪种模式、哪些 seed 或参数影响结果,以及导出前必须审核什么。

import json
brief = {
"topic": "RAG basics",
"audience": "beginners",
"style": "clean editorial cover",
}
prompt = f"{brief['style']} for {brief['topic']}, friendly visual metaphor for {brief['audience']}, clear layout"
record = {
"mode": "text-to-image",
"prompt": prompt,
"negative_prompt": "blurry, watermark, unreadable text",
"seed": 42,
"review": ["legibility", "copyright", "brand safety"],
}
print(json.dumps(record, indent=2))

预期输出:

Terminal window
{
"mode": "text-to-image",
"prompt": "clean editorial cover for RAG basics, friendly visual metaphor for beginners, clear layout",
"negative_prompt": "blurry, watermark, unreadable text",
"seed": 42,
"review": [
"legibility",
"copyright",
"brand safety"
]
}

图像生成提示词记录运行结果图

如果提示词记录无法复现,后面就很难稳定改图。

步骤阅读内容练习产物
1扩散直觉解释加噪、去噪、seed、采样
2Stable Diffusion 组件画出 text encoder、U-Net、VAE、latent space
3应用与控制对比 text-to-image、image-to-image、inpainting、ControlNet、LoRA

你能写出提示词记录,解释为什么选择某种生成模式,保存 3 个候选图备注,并在导出前标记至少 1 个审核风险,就算通过本章。

检查思路与讲解
  1. 合格答案要说清涉及哪些模态、输入输出契约是什么,以及文字、图像、音频或视频证据如何对齐。
  2. 证据应包含真实媒体产物或 trace,并附上质量、安全和失败案例说明。
  3. 自检时要能判断任务需要的是生成、理解、检索、工具编排还是人工复核,而不是把所有多模态问题都当成同一种 demo。

学完这一页,至少保留这张证据卡:

提示词记录
提示词、负面要求、参考、seed/model,以及版本号
候选输出
生成或模拟的结果及选择原因
技术备注
扩散步、潜变量、cross-attention、LoRA 或应用模式
失败检查
提示漂移、风格不匹配、产物、版权、肖像或复核失败
期望产出
选定图片/版本记录加被拒候选说明