跳转到内容

12.0 学习检查表：AIGC 与多模态

这页当成可打印检查表使用。需要完整讲解时，回到第 12 章入口页。

多模态作品集证据包

两小时快速通读

时间	做什么	能说出这句话就停
20 分钟	看入口页的工作流闭环	“多模态工作从保留来源的输入开始。”
25 分钟	运行视觉记录脚本	“我能把视觉内容转成可检查的结构化记录。”
25 分钟	浏览多模态基础和图像生成	“理解和生成都需要 Prompt、模型、输出和审核。”
25 分钟	浏览伦理与合规	“对外使用前要查版权、肖像、敏感内容和事实风险。”
25 分钟	阅读 RAG/Agent 桥接图	“多模态可以扩展 RAG、Agent 和收官项目。”

必须留下的证据

证据	最小版本
`multimodal_pipeline.md`	输入、解析、生成/理解、审核、导出
`visual_records.jsonl`	来源、页码/区域/时间引用、可见文字、对象、不确定点
`prompts/`	Prompt 版本、参考素材、负面要求、选择记录
`outputs/`	候选输出、选中输出、被拒输出、原因
`safety_review.md`	版权、肖像、敏感内容、事实性、使用边界
`README.md`	目标、运行命令、素材来源、示例输出、限制

质量闸门

闸门	通过条件
来源追踪	每个输入和输出都保留 source、owner/license、version，必要时保留 page/region/time reference。
Prompt/版本	候选输出能追溯到 Prompt、模型或工具、参考素材和选择理由。
审核	检查版权、肖像或声音、敏感内容、事实性、可访问性和导出范围。
导出	README、manifest、选中输出、被拒输出、限制和下一步修复可被他人检查。

离章问题

你能为截图、PDF、图片、音频或视频保留来源引用吗？
你能把非文本输入变成 RAG 或 Agent 可使用的结构化记录吗？
你能用 Prompt 版本和审核记录比较生成输出吗？
你能说明对外发布前必须检查什么吗？
你能把结果整理成最终作品集或毕业展示吗？

如果答案都是可以，你已经具备多模态交付路线。项目需要开源模型托管、运行时掌控或微调决策时，再进入第 13 章。

检查思路与讲解

“能做到”意味着每个非文本输入都有来源、负责人、版本和评审状态，而不只是留下最终文件。
好的结构化记录应包含抽取内容、模态元数据、置信度或评审备注，以及回到源资产的稳定链接。
生成结果应绑定 prompt 版本、候选 id、选中/拒绝决策和评审备注，这样迭代过程才可解释。
对外发布前，需要检查事实 grounding、授权与权利、隐私、敏感内容、安全策略，以及高风险材料是否经过人工批准。
可放入作品集的包应包含 brief、manifest、prompts、选中资产、失败案例、评审清单、最终导出，以及解释工作流的 README。

## 留下的证据

学完这一页，至少保留这张证据卡：

简介: 用户目标、受众、素材、约束和导出格式
工件: 源文件、提示词、生成候选、选定输出和被拒绝版本
审查: 事实检查、版权/肖像/敏感内容检查，以及人工决定
集成: RAG 记录、Agent trace、创意包、故事板或导出预览
期望产出: 可复现的资产包，包含 README、复查清单和失败说明