6.1.1 神经网络路线图:线性层、激活、损失、更新
神经网络不神秘。层先做加权求和,再用激活函数改变信号形状,训练时再调整权重以降低 loss。

记住这个闭环:
输入加权求和激活loss梯度更新权重
| 词 | 第一层意思 |
|---|---|
| 神经元 | 加权求和加偏置 |
| 激活函数 | ReLU 等非线性变化 |
| 前向传播 | 计算预测 |
| 反向传播 | 计算谁该为误差负责 |
| 优化器 | 用梯度更新权重 |
跑一个神经元
Section titled “跑一个神经元”创建 nn_first_loop.py,安装 torch 后运行。
import torch
x = torch.tensor([[1.0, -2.0, 3.0]])weights = torch.tensor([[0.5], [-1.0], [0.25]])bias = torch.tensor([0.1])
linear_output = x @ weights + biasactivated = torch.relu(linear_output)
print("linear_output:", round(linear_output.item(), 3))print("relu_output:", round(activated.item(), 3))预期输出:
linear_output: 3.35relu_output: 3.35如果线性输出是负数,ReLU 会把它变成 0。这个小门控让多层网络能表达非线性模式。
按这个顺序学
Section titled “按这个顺序学”| 顺序 | 阅读 | 先抓住什么 |
|---|---|---|
| 1 | 6.1.2 从 ML 到 DL | sklearn 之后发生了什么变化 |
| 2 | 6.1.3 神经元与激活 | 加权求和、偏置、ReLU |
| 3 | 6.1.4 前向与反向传播 | 预测、loss、梯度 |
| 4 | 6.1.5 优化器 | SGD、Momentum、Adam 直觉 |
| 5 | 6.1.6 正则化 | 控制过拟合 |
| 6 | 6.1.7 权重初始化 | 稳定起点 |
| 7 | 6.1.8 可选历史背景 | backprop、CNN、RNN、Attention、Transformer 为什么出现 |
学完 6.1 后,保留一条四行短笔记:
- 单层
- 输入 @ 权重 + 偏置
- 非线性
- 激活函数让堆叠层可以建模曲线模式
- 训练流程
- 前向 → 损失 → 反向 → 优化器步骤
- 调试优先
- 检查形状、损失、梯度、更新
这条笔记会成为本章后续学习 PyTorch、CNN、RNN 和 Transformer 的随身地图。
能把一层解释成 input @ weights + bias,说清激活函数做什么,并把 loss、梯度、优化器连成一个训练闭环,就算通过。
检查思路与讲解
- 合格答案要把 tensor、模型层、loss、
backward()和 optimizer 更新连成一个训练闭环。 - 证据应包含可运行的小实验、tensor shape 检查,以及能解释的 loss 或验证曲线。
- 自检时要能指出一个失败模式,例如 shape 不匹配、loss 不下降、过拟合、数据泄漏,或只会说 Attention/Transformer 名词却讲不出数据流。