跳转到内容

5.0 学习指南与任务单：机器学习

机器学习学习指南项目闭环

主要学习路线已经放在第 5 章入口。本页只作为练习时快速查看的清单。

一句话模型

定义任务划分数据训练 baseline评估查看错误改进

不知道该用哪个模型时，先做 baseline。

留下的证据

学完这一页，至少保留这张证据卡：

建模循环: 数据、特征、模型、指标、错误审查和下一次实验
工件: 代码、分数、图表、流水线或项目 README
失败检查: 泄漏、指标不匹配、划分不稳定、过拟合或业务目标不清晰
下一步动作: 做一个受控实验，而不是一次改很多参数
期望产出: 为进入深度学习做准备的可复现实验证据

练习清单

检查项	证据
能定义任务类型	问题说明
能无泄漏地划分数据	训练/测试划分记录
能训练 dummy baseline 和一个真实模型	baseline 对比
能为任务选择指标	指标说明
能查看错误样本	错误样本记录
能完成证据包工作坊	`ml_workshop_run/`

检查思路与讲解

问题说明要写清这是回归、分类、聚类、评估还是特征工程任务，以及什么算成功。
安全的划分说明要解释数据何时被划分，哪些预处理步骤只在训练数据上 fit。
baseline 对比应该包含 dummy 或简单模型，以及一个更强模型，并使用同一套评估方案。
指标说明要根据任务目标解释为什么选这个指标。不平衡分类不能只看 accuracy。
错误样本要变成下一步行动，而不是只截图留档。好的下一步是受控的特征、数据、阈值或模型改动。
当别人能复跑你的证据包并理解建模决策时，就可以进入第 6 章。

证据标准

产物	应该回答什么
问题说明	任务类型是什么，什么算成功？
划分说明	你怎样把测试数据和训练过程隔开？
baseline 对比	需要超过的最低分数是多少？
指标说明	为什么这个指标比单纯 accuracy 更适合目标？
错误记录	哪些错误最重要，可能是哪些特征或标签问题导致的？

可以继续的信号

当一个表格项目包含 baseline、真实模型、指标、错误分析和别人可复现的 README 时，就可以进入第 6 章。