11.5.1 Seq2Seq 路线图：输入序列到输出序列

Seq2Seq 处理输入和输出都是序列的任务：翻译、总结、改写、对话和纠错。

先看生成桥梁

Seq2Seq 与 Attention 章节学习顺序图

Seq2Seq Encoder Decoder 瓶颈图

T5 text-to-text 任务统一图

通往现代 LLM 的桥梁很清楚：生成是一步步发生的，Attention 帮助 decoder 回看有用的输入位置。

跑一个输入输出对检查

source = ["I", "love", "NLP"]
target = ["J'aime", "le", "NLP"]

for step, token in enumerate(target, start=1):
    print(f"decode_step_{step}:", token)
print("source_length:", len(source))
print("target_length:", len(target))

预期输出：

decode_step_1: J'aime
decode_step_2: le
decode_step_3: NLP
source_length: 3
target_length: 3

生成项目应该记录解码策略、失败案例，以及关键输入信息是否丢失。

按这个顺序学

步骤	阅读	实操产出
1	Encoder-Decoder	解释为什么输入和输出长度可以不同
2	Attention	解释生成时的动态对齐
3	机器翻译	连接 teacher forcing、解码、BLEU/错误分析
4	CTC 与语音	理解输入输出不逐帧对齐时会发生什么

通过标准

如果你能解释 Encoder-Decoder、Attention、greedy/beam decoding 和一个生成失败，就通过了本章。

检查思路与讲解

合格答案要从文本单元和输出类型说起：token、span、句子标签、序列、embedding 或生成文本。
证据应包含小样本、模型或 pipeline 选择、评价指标，以及至少一个被检查过的错误案例。
自检时要能区分预处理问题和模型问题，例如分词错误、标签歧义、数据不平衡或生成幻觉。

留下的证据

学完这一页，至少保留这张证据卡：

源目标: 源文本、目标文本和任务类型
解码输出: 生成的摘要、翻译、转写或序列结果
对齐说明: 注意力、CTC 路径、coverage，或复制的源证据
失败检查: 遗漏、重复、幻觉、对齐错误或评估薄弱
期望产出: 生成文本，以及事实性或对齐性复核说明