跳转到内容

12 AIGC 与多模态

AIGC 与多模态主视觉

第 12 章是多模态能力拓展:AI 不再只处理文字。 图片、PDF、语音、视频、截图、图表和生成素材,都可以进入同一条产品工作流。

不要追每一个新演示。先学会把非文本输入转成结构化记录,接入 RAG 或 Agent,生成或编辑素材,审核风险,并导出可用结果。

多模态工作流闭环

整章围绕这条工作流学习。

发生什么留下什么证据
输入文本、截图、图片、PDF、音频、视频源文件、所有者、授权、版本
解析 / 对齐OCR、版面解析、视觉理解、转写结构化记录、页码/区域/时间引用
理解 / 生成答案、标题、图片、语音、分镜、视频计划Prompt、模型、输出、候选版本
编辑 / 审核人工选择、事实检查、版权和肖像检查审核清单、被拒版本、原因
导出 / 集成RAG 索引、Agent trace、创意包、演示README、导出文件、限制、下一步

先做一个可追踪的小工作流,再挑战视频或完整创意平台。

  1. 12.1 多模态基础 把一张截图或图片转成结构化记录。留下来源、可见文字、对象和不确定点。

  2. 12.2 图像生成 记录 Prompt、参考、负面要求和选中结果。留下 Prompt 版本和审核记录。

  3. 12.3 视频、语音、数字人 理解分镜、语音、镜头、字幕和时间线。留下分镜和素材清单。

  4. 12.4 伦理与合规 检查版权、肖像、敏感内容和事实风险。留下安全审核清单。

  5. 12.5 阶段项目 运行 12.5.3 实操:构建一个可复现的多模态创意包。留下 brief、Prompt、素材、分镜、审核和导出预览。

第一个可运行循环:结构化视觉输入

Section titled “第一个可运行循环:结构化视觉输入”

这个离线脚本模拟多模态系统的第一步:模型或人工看完图片后,结果必须变成结构化、可检查的记录。

新建 ch12_visual_record.py,用 Python 3.10 或更新版本运行。

visual_record = {
"source": "course-slide-01.png",
"content_type": "course screenshot",
"visible_text": ["RAGOps", "evaluation set", "Trace", "cost monitoring"],
"objects": ["flowchart", "table"],
"uncertainty": ["small text in the lower-right corner is unclear"],
"next_step": "write into the multimodal RAG index for the course Q&A assistant to cite",
}
required_fields = {"source", "content_type", "visible_text", "objects", "uncertainty", "next_step"}
missing = required_fields - visual_record.keys()
rag_ready = not missing and bool(visual_record["visible_text"])
print("source:", visual_record["source"])
print("visible_text_count:", len(visual_record["visible_text"]))
print("uncertainty_count:", len(visual_record["uncertainty"]))
print("rag_ready:", rag_ready)

预期输出:

Terminal window
source: course-slide-01.png
visible_text_count: 4
uncertainty_count: 1
rag_ready: True

视觉记录 RAG-ready 运行结果图

操作提示:增加 pageregiontimestamp 字段。如果这条记录之后能被引用,就可以进入多模态 RAG;如果无法检查或引用,就应该留在审核阶段。

  • source 证明这条视觉记录来自哪里。
  • visible_text_count 说明系统提取或观察到了多少文本。
  • uncertainty_count 不是缺点,而是后续必须保留给人复核的部分。
  • rag_ready=True 只表示记录结构足够被后续引用,不代表视觉理解一定正确。
层级你能证明什么
最低通过能把一张截图、图片、PDF、音频或视频笔记转成带来源和不确定点的结构化记录。
项目可用能保留来源引用、Prompt 版本、候选输出、审核决定和导出文件。
深度检查能把多模态记录接入 RAG 或 Agent,同时执行版权、肖像、敏感内容、事实性、延迟和成本边界。

把多模态接到 RAG、Agent 和创意工作流

Section titled “把多模态接到 RAG、Agent 和创意工作流”

多模态 RAG、Agent 与收官项目图

多模态不是主线之外的孤岛。

主线能力多模态扩展
RAG检索 PDF 页、截图、图表、图片描述和文本片段,并保留引用
Agent观察截图或文档,选择工具,并留下可复盘动作
Prompt为图片、语音、分镜和审核生成提示词,并保留版本
工程记录素材、授权、审核、导出文件、延迟和成本
收官项目构建多模态学习助手或创意工作台

学完这一页,至少保留这张证据卡:

简介
用户目标、受众、素材、约束和导出格式
工件
源文件、提示词、生成候选、选定输出和被拒绝版本
审查
事实检查、版权/肖像/敏感内容检查,以及人工决定
集成
RAG 记录、Agent trace、创意包、故事板或导出预览
期望产出
可复现的资产包,包含 README、复查清单和失败说明
  • 把 AIGC 当成“一张好看的结果”,而不是工作流。
  • OCR、PDF 解析或截图理解后丢失来源引用。
  • 没有 Prompt 和版本记录,就比较生成结果。
  • 跳过版权、肖像、敏感内容或事实风险的人工审核。
  • 分镜、素材和审核规则没清楚,就直接做视频生成。

完成整门课程前,你应该能做到:

  • 解释文本、图片、PDF、语音和视频如何进入同一条工作流;
  • 运行视觉记录脚本,并增加页码、区域或时间戳等来源引用;
  • 保留 Prompt、素材、选中输出、被拒输出和审核原因;
  • 把多模态记录接入 RAG、Agent 或创意包;
  • 跑通多模态工作坊,并保留 README、审核清单、导出预览和失败样本。

可打印清单见 12.0 学习检查表。如果想做收官项目,从 12.5.3 实操:构建一个可复现的多模态创意包 开始。