| 信息 | 说明 |
|---|
| 预估学时 | 80~120h |
| 前置要求 | 完成第一阶段 |
掌握数据处理、分析与可视化的核心工具与方法。
为什么这个阶段很重要?
AI 的一切都始于数据。无论你未来做机器学习、深度学习还是大模型应用,第一步永远是:获取数据 → 理解数据 → 清洗数据 → 分析数据。
本阶段你将掌握 Python 数据科学的"三件套":NumPy( 数值计算)、Pandas(数据处理)、Matplotlib/Seaborn(可视化),这三个库在 AI 领域无处不在。
本阶段内容
第 1 章:从 Python 到数据分析的过渡(预热)
| 节 | 主题 | 你将学到 |
|---|
| 1.1 | 纯 Python 处理数据 | 用纯 Python 分析 Titanic 数据集,体会为什么需要专业工具 |
第 2 章:NumPy 科学计算
| 节 | 主题 | 你将学到 |
|---|
| 2.1 | NumPy 概述 | NumPy 是什么、为什么快、ndarray vs list |
| 2.2 | 数组基础 | 数组创建、属性、数据类型 |
| 2.3 | 数组索引与切片 | 基本索引、布尔索引、花式索引 |
| 2.4 | 数组运算 | 向量化运算、广播机制、聚合函数 |
| 2.5 | 数组变形 | reshape、拼接、分割、转置 |
| 2.6 | 线性代数操作 | 矩阵乘法、逆矩阵、解方程 |
| 2.7 | 随机数与统计 | 随机数生成、概率分布、统计运算 |
第 3 章:Pandas 数据处理
| 节 | 主题 | 你将学到 |
|---|
| 3.1 | 核心数据结构 | Series 与 DataFrame 的创建和使用 |
| 3.2 | 数据读写 | CSV、Excel、JSON 等格式的读取与导出 |
| 3.3 | 数据选择与过滤 | loc、iloc、条件过滤、query |
| 3.4 | 数据清洗 | 缺失值、重复值、异常值处理 |
| 3.5 | 数据转换 | apply、map、排序、替换 |
| 3.6 | 分组与聚合 | groupby、agg、pivot_table |
| 3.7 | 数据合并 | merge、join、concat |
| 3.8 | 时间序列 | 日期处理、重采样、滚动窗口 |
第 4 章:数据可视化
| 节 | 主题 | 你将学到 |
|---|
| 4.1 | Matplotlib 基础 | Figure/Axes 模型、常见图表、样式定制 |
| 4.2 | Seaborn 统计可视化 | 分布图、关系图、分类图、热力图 |
| 4.3 | 交互式可视化【选修】 | Plotly 基础、交互式图表 |
| 4.4 | 可视化最佳实践 | 图表选择、配色原则、避免误导 |
第 5 章:数据库基础【选修】
| 节 | 主题 | 你将学到 |
|---|
| 5.1 | 关系型数据库 | 表、行、列、主键、外键 |
| 5.2 | SQL 基础 | SELECT、WHERE、JOIN、GROUP BY |
| 5.3 | Python 数据库操作 | sqlite3、SQLAlchemy、Pandas + SQL |
| 5.4 | 数据库设计 | 范式、索引、实践 |
第 6 章:实战项目
| 项目 | 主题 | 涉及知识点 |
|---|
| 项目 1 | 探索性数据分析(EDA) | 数据清洗、统计分析、可视化、撰写报告 |
| 项目 2 | 多数据源整合分析 | 多格式数据读取、数据整合、透视分析、仪表盘 |
学习建议
- 先做预热:第 1 章的预热练习一定要做,它会让你后续学习事半功倍
- 多用 Jupyter:数据分析非常适合在 Jupyter Notebook 中进行,边写边看结果
- 跟着敲代码:每个示例都亲手运行一遍,修改参数看看效果有什么变化
- 用真实数据:学完基础后,找一个你感兴趣的数据集(Kaggle 上有很多)来练手