6.1.8 可选背景：深度学习历史突破

先看时间线

深度学习历史突破地图

把时间线读成一条链：

简单神经元
线性模型局限
可训练的多层网络
稳定训练深层网络
可扩展视觉模型
基于注意力的序列建模

只要记住这条链，第 6 章后面的架构就不会像一堆孤立名词。

一条更像工程问题的演进线

深度学习架构不是按名字堆出来的，而是每一代都在回答一个更具体的问题：

表格和手写特征不够 -> 让神经网络自己学表示
图像太大、位置有局部结构 -> CNN 共享小滤波器
序列有先后关系 -> RNN 用 hidden state 滚动记忆
长序列记不住 -> LSTM/GRU 加门控控制擦写
RNN 串行、远距离传递慢 -> Attention 让 token 直接互相看见
Attention 可并行、可堆叠 -> Transformer 成为大模型底座

这条线比年份更重要。学每个架构时都先问：

旧问题	新架构做了什么	代价
图像摊平成向量会丢掉空间结构，参数也太多	CNN 用局部卷积和权重共享提取特征图	对非网格数据不一定自然
普通 MLP 不知道输入顺序	RNN 逐步更新 hidden state	难并行，长距离依赖容易衰减
普通 RNN 记忆太短	LSTM/GRU 用门控决定保留、忘记和输出	结构更复杂，仍然按时间串行
RNN 远距离信息传递路径长	Attention 直接计算任意 token 之间的关系	序列很长时注意力开销大
单层 attention 只是一个机制	Transformer 把 attention、残差、归一化、FFN 组合成可堆叠 block	需要大量数据、算力和训练技巧

三次大变化

变化	当时的希望	主要瓶颈	推动下一阶段的关键
早期神经网络	机器可以从数据中学习	单层模型太弱	隐藏层和反向传播
可训练的深层网络	多层模型可以学习表示	梯度消失、数据和算力不足	LSTM、初始化、预训练思想
现代深度学习	数据、GPU、架构一起扩展	很深的模型和长依赖很难训	AlexNet、ResNet、Attention、Transformer

这也是为什么第 6 章先讲基础，再讲架构：

看到这个历史问题	回看本课程位置
单个神经元太弱	6.1.3 神经元与激活函数
多层网络需要梯度	6.1.4 前向与反向传播
训练容易不稳定	6.1.5 优化器、6.1.6 正则化、6.1.7 初始化
图像需要局部特征	第 6 章后面的 CNN 部分
序列需要记忆或注意力	RNN、LSTM、Attention、Transformer 部分

十个要记住的突破

时间	突破	解决的问题	对课程的意义
1943-1958	人工神经元与感知器	让机器从样本学习参数成为可能	神经元就是加权求和再判断
1969	XOR 局限	说明单层线性模型不够	隐藏层和非线性激活很重要
1980	新认知机	提前引入局部视觉特征和层级结构	CNN 先看局部模式
1986	反向传播	让多层网络可以训练	`loss.backward()` 是这个思想的现代形式
1989	通用逼近	说明非线性网络能表示复杂函数	表达能力需要深度和激活
1994-1997	梯度消失与 LSTM	让长序列记忆更可行	门控帮助信息跨时间保留
2006	RBM / DBN 预训练	重新激活深层表示学习路线	预训练成为重要思想
2012	AlexNet / ImageNet	证明数据 + GPU + CNN 能打穿视觉任务	大规模训练改变计算机视觉
2015	ResNet	让很深的 CNN 更容易训练	残差路径帮助梯度流动
2017	Attention / Transformer	让长距离序列建模可并行、可扩展	现代大语言模型的底座

每个名字该触发什么直觉

用这张小表快速记：

名字	先想到
感知器	可学习的线性打分
XOR	线性边界有局限
反向传播	沿计算图分配错误
LSTM / GRU	用门控记住长序列
AlexNet	GPU 规模 CNN 突破
ResNet	深层网络的跳连路径
Attention	每个 token 可以看相关 token
Transformer	大规模堆叠注意力模块

学习时怎么用这页

不用背每个年份。学完第 6 章每个架构小节后，做三件事：

用一句话写出旧瓶颈。
用一句话写出新机制。
运行本章实验，并指出哪一行代码体现了这个机制。

例子：

旧瓶颈：深层 CNN 很难优化。
新机制：ResNet 加了捷径路径。
代码线索：output = block(x) + x

这样历史就不会停留在名词上，而会和实现连起来。

快速检查

能回答下面问题，就可以继续：

为什么 XOR 暴露了单层模型的局限？
为什么反向传播对多层网络重要？
为什么 LSTM 出现在 Transformer 之前？
为什么 ResNet 能帮助很深的 CNN？
为什么 Attention 会成为现代大语言模型的桥？

如果你的回答是从“因为上一代模型不能……”开始，说明你正在用正确方式读历史。

留下的证据

把时间线变成一张小记忆草图。画四格：

框 1: 一个神经元学会线性规则
框 2: XOR 说明为什么需要隐藏非线性层
框 3: 反向传播让多层学习变得可行
框 4: 注意力让 token 在大规模下直接连接

这页是可选背景，但这张草图很有用。它能说明为什么第 6 章会从神经元一路走到 Transformer，而不是随机罗列架构名词。

预期结果

这里的预期输出不是背年份，而是能写出因果链：

perceptron -> XOR shows the limit
XOR -> hidden nonlinear layers matter
deep layers -> backprop and gradient flow matter
long sequences -> gates and attention matter
Transformer -> scalable context modeling for LLMs

当架构名字开始像孤立事实时，就用这条链把它们重新串起来。

检查思路与讲解

不要按年份死背这页。更好的检查方式是给每个突破补上一句“上一代卡在哪里”：

感知器让参数可学习，但单层线性模型解决不了 XOR。
隐藏层和反向传播让多层网络能训练，但深层网络还会遇到梯度和数据问题。
LSTM 用门控缓解长序列记忆问题，但序列计算仍不够并行。
AlexNet 证明数据、GPU 和 CNN 组合能突破视觉任务。
ResNet 用残差路径让更深的网络更容易优化。
Attention/Transformer 把远距离依赖变成可并行的 token 交互。

如果你的草图能从“旧瓶颈 -> 新机制 -> 课程代码线索”讲通，就算通过。这里不要求记住所有年份。