3.0 学习指南与任务单:数据分析与可视化

主要学习路线已经放在 第 3 章入口。本页只作为练习时快速查看的清单。
读取检查清洗统计可视化解释
如果一张图不能用一句话解释,就回到数据问题本身。
学完这一页,至少保留这张证据卡:
- 数据来源
- 使用的原始记录或小型数据集
- 处理步骤
- 纯 Python、NumPy、Pandas、绘图或 SQL 操作
- 输出
- 清洗后的数据、统计量、图表、查询结果,或报告备注
- 失败检查
- 数据缺失、形状不匹配、聚合错误或问题不清晰
- 期望产出
- 数据成果,以及值得信任它所需的证据
| 检查项 | 证据 |
|---|---|
| 能检查行、列、类型和缺失值 | df.info() 和缺失值记录 |
| 能处理重复、缺失和明显异常值 | 清洗日志 |
能用 groupby 回答一个问题 | 汇总表 |
| 能为具体问题选择图表 | 3 个图表文件 |
| 能写出结论和局限 | report.md |
| 能完成可复现实操 | ch03_output/ |
检查思路与讲解
- 把这份清单当成最终证据审计。每个项目都应能指向原始文件、清洗后文件或清洗脚本、摘要表、图表和短结论。
- 每个结论都写一句支撑证据和一句限制。这个习惯能避免从小而脏的数据里过度下结论。
- 如果其他学习者不能从一个干净文件夹重跑你的 notebook 或脚本,先修路径、依赖和 README 步骤,再进入下一章。
| 产物 | 应该回答什么 |
|---|---|
| 数据字典 | 每一列是什么意思,单位是什么,数据从哪里来? |
| 清洗日志 | 哪些行或值被改变,为什么这个规则可以接受? |
| 汇总表 | 哪个数值模式支撑了答案? |
| 图表 | 这张图回答了哪一个具体问题? |
| 局限记录 | 缺失数据、抽样、时间或泄漏还可能造成什么问题? |
可以继续的信号
Section titled “可以继续的信号”当一个 CSV 能从原始数据走到清洗数据、汇总表、图表和简短文字结论时,就可以进入第 4 章。