12 AIGC 与多模态

AIGC 与多模态主视觉

第 12 章是多模态能力拓展：AI 不再只处理文字。 图片、PDF、语音、视频、截图、图表和生成素材，都可以进入同一条产品工作流。

不要追每一个新演示。先学会把非文本输入转成结构化记录，接入 RAG 或 Agent，生成或编辑素材，审核风险，并导出可用结果。

先看多模态工作流

多模态工作流闭环

整章围绕这条工作流学习。

层	发生什么	留下什么证据
输入	文本、截图、图片、PDF、音频、视频	源文件、所有者、授权、版本
解析 / 对齐	OCR、版面解析、视觉理解、转写	结构化记录、页码/区域/时间引用
理解 / 生成	答案、标题、图片、语音、分镜、视频计划	Prompt、模型、输出、候选版本
编辑 / 审核	人工选择、事实检查、版权和肖像检查	审核清单、被拒版本、原因
导出 / 集成	RAG 索引、Agent trace、创意包、演示	README、导出文件、限制、下一步

学习顺序与任务表

先做一个可追踪的小工作流，再挑战视频或完整创意平台。

12.1 多模态基础 把一张截图或图片转成结构化记录。留下来源、可见文字、对象和不确定点。
12.2 图像生成 记录 Prompt、参考、负面要求和选中结果。留下 Prompt 版本和审核记录。
12.3 视频、语音、数字人 理解分镜、语音、镜头、字幕和时间线。留下分镜和素材清单。
12.4 伦理与合规 检查版权、肖像、敏感内容和事实风险。留下安全审核清单。
12.5 阶段项目 运行 12.5.3 实操：构建一个可复现的多模态创意包。留下 brief、Prompt、素材、分镜、审核和导出预览。

第一个可运行循环：结构化视觉输入

这个离线脚本模拟多模态系统的第一步：模型或人工看完图片后，结果必须变成结构化、可检查的记录。

新建 ch12_visual_record.py，用 Python 3.10 或更新版本运行。

visual_record = {
    "source": "course-slide-01.png",
    "content_type": "course screenshot",
    "visible_text": ["RAGOps", "evaluation set", "Trace", "cost monitoring"],
    "objects": ["flowchart", "table"],
    "uncertainty": ["small text in the lower-right corner is unclear"],
    "next_step": "write into the multimodal RAG index for the course Q&A assistant to cite",
}

required_fields = {"source", "content_type", "visible_text", "objects", "uncertainty", "next_step"}
missing = required_fields - visual_record.keys()
rag_ready = not missing and bool(visual_record["visible_text"])

print("source:", visual_record["source"])
print("visible_text_count:", len(visual_record["visible_text"]))
print("uncertainty_count:", len(visual_record["uncertainty"]))
print("rag_ready:", rag_ready)

预期输出：

source: course-slide-01.png
visible_text_count: 4
uncertainty_count: 1
rag_ready: True

视觉记录 RAG-ready 运行结果图

操作提示：增加 page、region 或 timestamp 字段。如果这条记录之后能被引用，就可以进入多模态 RAG；如果无法检查或引用，就应该留在审核阶段。

如何读这个输出

source 证明这条视觉记录来自哪里。
visible_text_count 说明系统提取或观察到了多少文本。
uncertainty_count 不是缺点，而是后续必须保留给人复核的部分。
rag_ready=True 只表示记录结构足够被后续引用，不代表视觉理解一定正确。

深度阶梯

层级	你能证明什么
最低通过	能把一张截图、图片、PDF、音频或视频笔记转成带来源和不确定点的结构化记录。
项目可用	能保留来源引用、Prompt 版本、候选输出、审核决定和导出文件。
深度检查	能把多模态记录接入 RAG 或 Agent，同时执行版权、肖像、敏感内容、事实性、延迟和成本边界。

把多模态接到 RAG、Agent 和创意工作流

多模态 RAG、Agent 与收官项目图

多模态不是主线之外的孤岛。

主线能力	多模态扩展
RAG	检索 PDF 页、截图、图表、图片描述和文本片段，并保留引用
Agent	观察截图或文档，选择工具，并留下可复盘动作
Prompt	为图片、语音、分镜和审核生成提示词，并保留版本
工程	记录素材、授权、审核、导出文件、延迟和成本
收官项目	构建多模态学习助手或创意工作台

留下的证据

学完这一页，至少保留这张证据卡：

简介: 用户目标、受众、素材、约束和导出格式
工件: 源文件、提示词、生成候选、选定输出和被拒绝版本
审查: 事实检查、版权/肖像/敏感内容检查，以及人工决定
集成: RAG 记录、Agent trace、创意包、故事板或导出预览
期望产出: 可复现的资产包，包含 README、复查清单和失败说明

常见错误

把 AIGC 当成“一张好看的结果”，而不是工作流。
OCR、PDF 解析或截图理解后丢失来源引用。
没有 Prompt 和版本记录，就比较生成结果。
跳过版权、肖像、敏感内容或事实风险的人工审核。
分镜、素材和审核规则没清楚，就直接做视频生成。

通关检查

完成整门课程前，你应该能做到：

解释文本、图片、PDF、语音和视频如何进入同一条工作流；
运行视觉记录脚本，并增加页码、区域或时间戳等来源引用；
保留 Prompt、素材、选中输出、被拒输出和审核原因；
把多模态记录接入 RAG、Agent 或创意包；
跑通多模态工作坊，并保留 README、审核清单、导出预览和失败样本。

可打印清单见 12.0 学习检查表。如果想做收官项目，从 12.5.3 实操：构建一个可复现的多模态创意包开始。