7.4.1 预训练路线图：数据、目标、工程

预训练让模型先学到广泛语言模式。工程视角是：清理数据，选择目标，大规模训练，追踪风险。

先看预训练三角

预训练章节关系图

预训练数据、目标与工程三角图

tokens = ["AI", "learns", "from", "text"]
pairs = list(zip(tokens[:-1], tokens[1:]))

for source, target in pairs:
    print(f"{source} -> {target}")

预期输出：

AI -> learns
learns -> from
from -> text

next-token 样本创建运行结果图

这个小例子就是 next-token prediction 的形状。真实预训练会把它扩展到海量文本，并配合严格的数据治理。

顺序	阅读	先抓住什么
1	7.4.2 预训练数据	来源、过滤、去重、污染
2	7.4.3 预训练方法	next-token prediction、loss、scaling
3	7.4.4 预训练工程	分布式训练、checkpoint、监控
4	7.4.5 租 GPU 训练手搓 GPT-2	选平台、开环境、用 `device: cuda` 逐行跑通 mini GPT-2

学完这一页，至少保留这张证据卡：

能解释数据、目标和工程分别如何影响最终模型，知道数据污染为什么会让评估误导人，并说清为什么 mini GPT-2 实验里 CPU 只是冒烟测试、device: cuda 才是正式训练证据，就算通过。

检查思路与讲解