跳转到内容

12.0 学习检查表:AIGC 与多模态

这页当成可打印检查表使用。需要完整讲解时,回到 第 12 章入口页

多模态作品集证据包

时间做什么能说出这句话就停
20 分钟看入口页的工作流闭环“多模态工作从保留来源的输入开始。”
25 分钟运行视觉记录脚本“我能把视觉内容转成可检查的结构化记录。”
25 分钟浏览多模态基础和图像生成“理解和生成都需要 Prompt、模型、输出和审核。”
25 分钟浏览伦理与合规“对外使用前要查版权、肖像、敏感内容和事实风险。”
25 分钟阅读 RAG/Agent 桥接图“多模态可以扩展 RAG、Agent 和收官项目。”
证据最小版本
multimodal_pipeline.md输入、解析、生成/理解、审核、导出
visual_records.jsonl来源、页码/区域/时间引用、可见文字、对象、不确定点
prompts/Prompt 版本、参考素材、负面要求、选择记录
outputs/候选输出、选中输出、被拒输出、原因
safety_review.md版权、肖像、敏感内容、事实性、使用边界
README.md目标、运行命令、素材来源、示例输出、限制
闸门通过条件
来源追踪每个输入和输出都保留 source、owner/license、version,必要时保留 page/region/time reference。
Prompt/版本候选输出能追溯到 Prompt、模型或工具、参考素材和选择理由。
审核检查版权、肖像或声音、敏感内容、事实性、可访问性和导出范围。
导出README、manifest、选中输出、被拒输出、限制和下一步修复可被他人检查。
  • 你能为截图、PDF、图片、音频或视频保留来源引用吗?
  • 你能把非文本输入变成 RAG 或 Agent 可使用的结构化记录吗?
  • 你能用 Prompt 版本和审核记录比较生成输出吗?
  • 你能说明对外发布前必须检查什么吗?
  • 你能把结果整理成最终作品集或毕业展示吗?

如果答案都是可以,你已经具备多模态交付路线。项目需要开源模型托管、运行时掌控或微调决策时,再进入第 13 章。

检查思路与讲解
  • “能做到”意味着每个非文本输入都有来源、负责人、版本和评审状态,而不只是留下最终文件。
  • 好的结构化记录应包含抽取内容、模态元数据、置信度或评审备注,以及回到源资产的稳定链接。
  • 生成结果应绑定 prompt 版本、候选 id、选中/拒绝决策和评审备注,这样迭代过程才可解释。
  • 对外发布前,需要检查事实 grounding、授权与权利、隐私、敏感内容、安全策略,以及高风险材料是否经过人工批准。
  • 可放入作品集的包应包含 brief、manifest、prompts、选中资产、失败案例、评审清单、最终导出,以及解释工作流的 README。
## 留下的证据

学完这一页,至少保留这张证据卡:

简介
用户目标、受众、素材、约束和导出格式
工件
源文件、提示词、生成候选、选定输出和被拒绝版本
审查
事实检查、版权/肖像/敏感内容检查,以及人工决定
集成
RAG 记录、Agent trace、创意包、故事板或导出预览
期望产出
可复现的资产包,包含 README、复查清单和失败说明