12.0 学习检查表:AIGC 与多模态
这页当成可打印检查表使用。需要完整讲解时,回到 第 12 章入口页。

两小时快速通读
Section titled “两小时快速通读”| 时间 | 做什么 | 能说出这句话就停 |
|---|---|---|
| 20 分钟 | 看入口页的工作流闭环 | “多模态工作从保留来源的输入开始。” |
| 25 分钟 | 运行视觉记录脚本 | “我能把视觉内容转成可检查的结构化记录。” |
| 25 分钟 | 浏览多模态基础和图像生成 | “理解和生成都需要 Prompt、模型、输出和审核。” |
| 25 分钟 | 浏览伦理与合规 | “对外使用前要查版权、肖像、敏感内容和事实风险。” |
| 25 分钟 | 阅读 RAG/Agent 桥接图 | “多模态可以扩展 RAG、Agent 和收官项目。” |
必须留下的证据
Section titled “必须留下的证据”| 证据 | 最小版本 |
|---|---|
multimodal_pipeline.md | 输入、解析、生成/理解、审核、导出 |
visual_records.jsonl | 来源、页码/区域/时间引用、可见文字、对象、不确定点 |
prompts/ | Prompt 版本、参考素材、负面要求、选择记录 |
outputs/ | 候选输出、选中输出、被拒输出、原因 |
safety_review.md | 版权、肖像、敏感内容、事实性、使用边界 |
README.md | 目标、运行命令、素材来源、示例输出、限制 |
| 闸门 | 通过条件 |
|---|---|
| 来源追踪 | 每个输入和输出都保留 source、owner/license、version,必要时保留 page/region/time reference。 |
| Prompt/版本 | 候选输出能追溯到 Prompt、模型或工具、参考素材和选择理由。 |
| 审核 | 检查版权、肖像或声音、敏感内容、事实性、可访问性和导出范围。 |
| 导出 | README、manifest、选中输出、被拒输出、限制和下一步修复可被他人检查。 |
- 你能为截图、PDF、图片、音频或视频保留来源引用吗?
- 你能把非文本输入变成 RAG 或 Agent 可使用的结构化记录吗?
- 你能用 Prompt 版本和审核记录比较生成输出吗?
- 你能说明对外发布前必须检查什么吗?
- 你能把结果整理成最终作品集或毕业展示吗?
如果答案都是可以,你已经具备多模态交付路线。项目需要开源模型托管、运行时掌控或微调决策时,再进入第 13 章。
检查思路与讲解
- “能做到”意味着每个非文本输入都有来源、负责人、版本和评审状态,而不只是留下最终文件。
- 好的结构化记录应包含抽取内容、模态元数据、置信度或评审备注,以及回到源资产的稳定链接。
- 生成结果应绑定 prompt 版本、候选 id、选中/拒绝决策和评审备注,这样迭代过程才可解释。
- 对外发布前,需要检查事实 grounding、授权与权利、隐私、敏感内容、安全策略,以及高风险材料是否经过人工批准。
- 可放入作品集的包应包含 brief、manifest、prompts、选中资产、失败案例、评审清单、最终导出,以及解释工作流的 README。
学完这一页,至少保留这张证据卡:
- 简介
- 用户目标、受众、素材、约束和导出格式
- 工件
- 源文件、提示词、生成候选、选定输出和被拒绝版本
- 审查
- 事实检查、版权/肖像/敏感内容检查,以及人工决定
- 集成
- RAG 记录、Agent trace、创意包、故事板或导出预览
- 期望产出
- 可复现的资产包,包含 README、复查清单和失败说明