12 AIGC 与多模态

第 12 章是多模态能力拓展:AI 不再只处理文字。 图片、PDF、语音、视频、截图、图表和生成素材,都可以进入同一条产品工作流。
不要追每一个新演示。先学会把非文本输入转成结构化记录,接入 RAG 或 Agent,生成或编辑素材,审核风险,并导出可用结果。
先看多模态工作流
Section titled “先看多模态工作流”
整章围绕这条工作流学习。
| 层 | 发生什么 | 留下什么证据 |
|---|---|---|
| 输入 | 文本、截图、图片、PDF、音频、视频 | 源文件、所有者、授权、版本 |
| 解析 / 对齐 | OCR、版面解析、视觉理解、转写 | 结构化记录、页码/区域/时间引用 |
| 理解 / 生成 | 答案、标题、图片、语音、分镜、视频计划 | Prompt、模型、输出、候选版本 |
| 编辑 / 审核 | 人工选择、事实检查、版权和肖像检查 | 审核清单、被拒版本、原因 |
| 导出 / 集成 | RAG 索引、Agent trace、创意包、演示 | README、导出文件、限制、下一步 |
学习顺序与任务表
Section titled “学习顺序与任务表”先做一个可追踪的小工作流,再挑战视频或完整创意平台。
-
12.1 多模态基础 把一张截图或图片转成结构化记录。留下来源、可见文字、对象和不确定点。
-
12.2 图像生成 记录 Prompt、参考、负面要求和选中结果。留下 Prompt 版本和审核记录。
-
12.3 视频、语音、数字人 理解分镜、语音、镜头、字幕和时间线。留下分镜和素材清单。
-
12.4 伦理与合规 检查版权、肖像、敏感内容和事实风险。留下安全审核清单。
-
12.5 阶段项目 运行 12.5.3 实操:构建一个可复现的多模态创意包。留下 brief、Prompt、素材、分镜、审核和导出预览。
第一个可运行循环:结构化视觉输入
Section titled “第一个可运行循环:结构化视觉输入”这个离线脚本模拟多模态系统的第一步:模型或人工看完图片后,结果必须变成结构化、可检查的记录。
新建 ch12_visual_record.py,用 Python 3.10 或更新版本运行。
visual_record = { "source": "course-slide-01.png", "content_type": "course screenshot", "visible_text": ["RAGOps", "evaluation set", "Trace", "cost monitoring"], "objects": ["flowchart", "table"], "uncertainty": ["small text in the lower-right corner is unclear"], "next_step": "write into the multimodal RAG index for the course Q&A assistant to cite",}
required_fields = {"source", "content_type", "visible_text", "objects", "uncertainty", "next_step"}missing = required_fields - visual_record.keys()rag_ready = not missing and bool(visual_record["visible_text"])
print("source:", visual_record["source"])print("visible_text_count:", len(visual_record["visible_text"]))print("uncertainty_count:", len(visual_record["uncertainty"]))print("rag_ready:", rag_ready)预期输出:
source: course-slide-01.pngvisible_text_count: 4uncertainty_count: 1rag_ready: True
操作提示:增加 page、region 或 timestamp 字段。如果这条记录之后能被引用,就可以进入多模态 RAG;如果无法检查或引用,就应该留在审核阶段。
如何读这个输出
Section titled “如何读这个输出”source证明这条视觉记录来自哪里。visible_text_count说明系统提取或观察到了多少文本。uncertainty_count不是缺点,而是后续必须保留给人复核的部分。rag_ready=True只表示记录结构足够被后续引用,不代表视觉理解一定正确。
| 层级 | 你能证明什么 |
|---|---|
| 最低通过 | 能把一张截图、图片、PDF、音频或视频笔记转成带来源和不确定点的结构化记录。 |
| 项目可用 | 能保留来源引用、Prompt 版本、候选输出、审核决定和导出文件。 |
| 深度检查 | 能把多模态记录接入 RAG 或 Agent,同时执行版权、肖像、敏感内容、事实性、延迟和成本边界。 |
把多模态接到 RAG、Agent 和创意工作流
Section titled “把多模态接到 RAG、Agent 和创意工作流”
多模态不是主线之外的孤岛。
| 主线能力 | 多模态扩展 |
|---|---|
| RAG | 检索 PDF 页、截图、图表、图片描述和文本片段,并保留引用 |
| Agent | 观察截图或文档,选择工具,并留下可复盘动作 |
| Prompt | 为图片、语音、分镜和审核生成提示词,并保留版本 |
| 工程 | 记录素材、授权、审核、导出文件、延迟和成本 |
| 收官项目 | 构建多模态学习助手或创意工作台 |
学完这一页,至少保留这张证据卡:
- 简介
- 用户目标、受众、素材、约束和导出格式
- 工件
- 源文件、提示词、生成候选、选定输出和被拒绝版本
- 审查
- 事实检查、版权/肖像/敏感内容检查,以及人工决定
- 集成
- RAG 记录、Agent trace、创意包、故事板或导出预览
- 期望产出
- 可复现的资产包,包含 README、复查清单和失败说明
- 把 AIGC 当成“一张好看的结果”,而不是工作流。
- OCR、PDF 解析或截图理解后丢失来源引用。
- 没有 Prompt 和版本记录,就比较生成结果。
- 跳过版权、肖像、敏感内容或事实风险的人工审核。
- 分镜、素材和审核规则没清楚,就直接做视频生成。
完成整门课程前,你应该能做到:
- 解释文本、图片、PDF、语音和视频如何进入同一条工作流;
- 运行视觉记录脚本,并增加页码、区域或时间戳等来源引用;
- 保留 Prompt、素材、选中输出、被拒输出和审核原因;
- 把多模态记录接入 RAG、Agent 或创意包;
- 跑通多模态工作坊,并保留 README、审核清单、导出预览和失败样本。
可打印清单见 12.0 学习检查表。如果想做收官项目,从 12.5.3 实操:构建一个可复现的多模态创意包 开始。