跳转到内容

11.0 学习检查表：自然语言处理

这页当成可打印检查表使用。需要完整讲解时，回到第 11 章入口页。

NLP 作品集证据包

两小时快速通读

时间	做什么	能说出这句话就停
20 分钟	看文本到任务流水线	“NLP 从原始文本开始，以可评估输出结束。”
25 分钟	运行标签评估脚本	“我能比较预测标签和期望标签。”
25 分钟	浏览 11.1 文本预处理	“清洗可能帮忙，也可能伤害含义。”
25 分钟	浏览分类、抽取、生成路线图	“任务由输出定义。”
25 分钟	阅读任务输出图	“我能根据输出类型选择指标。”

必须留下的证据

证据	最小版本
`text_cleaning.py`	清洗、分词、前后对比样例
`label_guide.md`	标签定义、边界案例、正例和反例
`classification_report.md`	指标、混淆矩阵或错误表、模型对比
`extraction_examples.jsonl`	原文、抽取字段、校验结果
`failure_cases.md`	混淆标签、缺失字段、不支持事实、坏摘要
`README.md`	任务目标、运行命令、输入输出、指标、限制

质量闸门

闸门	通过条件
标签/schema 边界	标签或字段包含正例、反例和边界例。
基线	规则、TF-IDF、简单模型或 LLM 基线使用同一批固定评估样本运行。
事实性	生成摘要或答案按来源证据检查，不只看流畅度。
错误复盘	混淆、缺字段、不支持事实、坏摘要都有原因和下一次测试。

离章问题

你能解释原始文本怎样变成 token 和模型输入吗？
你能在训练或提示前定义标签边界吗？
你能判断任务需要分类、抽取、检索还是生成吗？
你能评估摘要或答案的事实一致性吗？
你能说明什么时候传统 NLP 方法够用，什么时候 LLM 更合适吗？

如果答案都是可以，就能更稳地把 NLP 思维用到 Prompt、RAG、Agent 记忆和多模态任务中。

检查思路与讲解

合格答案应能讲清原始文本到 token、表示、模型输入、预测、指标和失败案例的路径。
标签边界只有在有正例、反例、边界例和冲突处理规则时才算准备好。
固定标签用分类，字段输出用抽取，查证据用检索，生成新文本用生成；输出需要多步时用混合方案。
事实一致性意味着每个生成摘要或答案都能追溯到来源证据；流畅本身不够。
任务小、透明、稳定时，传统 NLP 往往够用；语言变化大、需要生成或依赖上下文推理时，LLM 更有帮助。

留下的证据

学完这一页，至少保留这张证据卡：

任务输出: 标签、实体字段、摘要、答案、检索结果或语义图
工件: 原始文本、处理后文本、预测、指标和失败案例
指标: 准确率/F1、精确率/召回率、检索命中率、忠实度或 schema 有效性
失败检查: 标签不清、过度清洗、边界错误、幻觉或答案无依据
期望产出: 可复现的文本流程文件夹，包含指标和示例