11.0 学习检查表:自然语言处理
这页当成可打印检查表使用。需要完整讲解时,回到 第 11 章入口页。

两小时快速通读
Section titled “两小时快速通读”| 时间 | 做什么 | 能说出这句话就停 |
|---|---|---|
| 20 分钟 | 看文本到任务流水线 | “NLP 从原始文本开始,以可评估输出结束。” |
| 25 分钟 | 运行标签评估脚本 | “我能比较预测标签和期望标签。” |
| 25 分钟 | 浏览 11.1 文本预处理 | “清洗可能帮忙,也可能伤害含义。” |
| 25 分钟 | 浏览分类、抽取、生成路线图 | “任务由输出定义。” |
| 25 分钟 | 阅读任务输出图 | “我能根据输出类型选择指标。” |
必须留下的证据
Section titled “必须留下的证据”| 证据 | 最小版本 |
|---|---|
text_cleaning.py | 清洗、分词、前后对比样例 |
label_guide.md | 标签定义、边界案例、正例和反例 |
classification_report.md | 指标、混淆矩阵或错误表、模型对比 |
extraction_examples.jsonl | 原文、抽取字段、校验结果 |
failure_cases.md | 混淆标签、缺失字段、不支持事实、坏摘要 |
README.md | 任务目标、运行命令、输入输出、指标、限制 |
| 闸门 | 通过条件 |
|---|---|
| 标签/schema 边界 | 标签或字段包含正例、反例和边界例。 |
| 基线 | 规则、TF-IDF、简单模型或 LLM 基线使用同一批固定评估样本运行。 |
| 事实性 | 生成摘要或答案按来源证据检查,不只看流畅度。 |
| 错误复盘 | 混淆、缺字段、不支持事实、坏摘要都有原因和下一次测试。 |
- 你能解释原始文本怎样变成 token 和模型输入吗?
- 你能在训练或提示前定义标签边界吗?
- 你能判断任务需要分类、抽取、检索还是生成吗?
- 你能评估摘要或答案的事实一致性吗?
- 你能说明什么时候传统 NLP 方法够用,什么时候 LLM 更合适吗?
如果答案都是可以,就能更稳地把 NLP 思维用到 Prompt、RAG、Agent 记忆和多模态任务中。
检查思路与讲解
- 合格答案应能讲清原始文本到 token、表示、模型输入、预测、指标和失败案例的路径。
- 标签边界只有在有正例、反例、边界例和冲突处理规则时才算准备好。
- 固定标签用分类,字段输出用抽取,查证据用检索,生成新文本用生成;输出需要多步时用混合方案。
- 事实一致性意味着每个生成摘要或答案都能追溯到来源证据;流畅本身不够。
- 任务小、透明、稳定时,传统 NLP 往往够用;语言变化大、需要生成或依赖上下文推理时,LLM 更有帮助。
学完这一页,至少保留这张证据卡:
- 任务输出
- 标签、实体字段、摘要、答案、检索结果或语义图
- 工件
- 原始文本、处理后文本、预测、指标和失败案例
- 指标
- 准确率/F1、精确率/召回率、检索命中率、忠实度或 schema 有效性
- 失败检查
- 标签不清、过度清洗、边界错误、幻觉或答案无依据
- 期望产出
- 可复现的文本流程文件夹,包含指标和示例