Skip to main content

11.0 学习检查表:自然语言处理

这页当成可打印检查表使用。需要完整讲解时,回到 第 11 章入口页

NLP 作品集证据包

两小时快速通读

时间做什么能说出这句话就停
20 分钟看文本到任务流水线“NLP 从原始文本开始,以可评估输出结束。”
25 分钟运行标签评估脚本“我能比较预测标签和期望标签。”
25 分钟浏览 11.1 文本预处理“清洗可能帮忙,也可能伤害含义。”
25 分钟浏览分类、抽取、生成路线图“任务由输出定义。”
25 分钟阅读任务输出图“我能根据输出类型选择指标。”

必须留下的证据

证据最小版本
text_cleaning.py清洗、分词、前后对比样例
label_guide.md标签定义、边界案例、正例和反例
classification_report.md指标、混淆矩阵或错误表、模型对比
extraction_examples.jsonl原文、抽取字段、校验结果
failure_cases.md混淆标签、缺失字段、不支持事实、坏摘要
README.md任务目标、运行命令、输入输出、指标、限制

质量闸门

闸门通过条件
标签/schema 边界标签或字段包含正例、反例和边界例。
Baseline规则、TF-IDF、简单模型或 LLM baseline 使用同一批固定评估样本运行。
事实性生成摘要或答案按来源证据检查,不只看流畅度。
错误复盘混淆、缺字段、不支持事实、坏摘要都有原因和下一次测试。

离章问题

  • 你能解释原始文本怎样变成 token 和模型输入吗?
  • 你能在训练或提示前定义标签边界吗?
  • 你能判断任务需要分类、抽取、检索还是生成吗?
  • 你能评估摘要或答案的事实一致性吗?
  • 你能说明什么时候传统 NLP 方法够用,什么时候 LLM 更合适吗?

如果答案都是可以,就能更稳地把 NLP 思维用到 Prompt、RAG、Agent 记忆和多模态任务中。