跳转到内容

5.0 学习指南与任务单:机器学习

机器学习学习指南项目闭环

主要学习路线已经放在 第 5 章入口。本页只作为练习时快速查看的清单。

定义任务划分数据训练 baseline评估查看错误改进

不知道该用哪个模型时,先做 baseline。

学完这一页,至少保留这张证据卡:

建模循环
数据、特征、模型、指标、错误审查和下一次实验
工件
代码、分数、图表、流水线或项目 README
失败检查
泄漏、指标不匹配、划分不稳定、过拟合或业务目标不清晰
下一步动作
做一个受控实验,而不是一次改很多参数
期望产出
为进入深度学习做准备的可复现实验证据
检查项证据
能定义任务类型问题说明
能无泄漏地划分数据训练/测试划分记录
能训练 dummy baseline 和一个真实模型baseline 对比
能为任务选择指标指标说明
能查看错误样本错误样本记录
能完成证据包工作坊ml_workshop_run/
检查思路与讲解
  1. 问题说明要写清这是回归、分类、聚类、评估还是特征工程任务,以及什么算成功。
  2. 安全的划分说明要解释数据何时被划分,哪些预处理步骤只在训练数据上 fit。
  3. baseline 对比应该包含 dummy 或简单模型,以及一个更强模型,并使用同一套评估方案。
  4. 指标说明要根据任务目标解释为什么选这个指标。不平衡分类不能只看 accuracy。
  5. 错误样本要变成下一步行动,而不是只截图留档。好的下一步是受控的特征、数据、阈值或模型改动。
  6. 当别人能复跑你的证据包并理解建模决策时,就可以进入第 6 章。
产物应该回答什么
问题说明任务类型是什么,什么算成功?
划分说明你怎样把测试数据和训练过程隔开?
baseline 对比需要超过的最低分数是多少?
指标说明为什么这个指标比单纯 accuracy 更适合目标?
错误记录哪些错误最重要,可能是哪些特征或标签问题导致的?

当一个表格项目包含 baseline、真实模型、指标、错误分析和别人可复现的 README 时,就可以进入第 6 章。