Transformer 经典论文综述笔记(10篇必读)

张开发
2026/4/10 23:12:11 15 分钟阅读

分享文章

Transformer 经典论文综述笔记(10篇必读)
一、综述目标Transformer 自 2017 年提出以来已经从最初的机器翻译模型发展为自然语言处理、计算机视觉、多模态理解与生成、大语言模型的统一基础架构。这份笔记选取 10 篇最具代表性的论文从架构起点、预训练范式、长上下文、统一任务建模、规模化训练、视觉扩展、多模态对齐、开源基座模型等几个维度梳理 Transformer 的核心演化脉络。二、整体发展主线Transformer 的发展可以概括为四条主线架构起点用自注意力替代 RNN/CNN建立统一序列建模框架。预训练范式形成 BERT 的双向理解路线与 GPT 的自回归生成路线。能力边界扩展解决长上下文、训练效率、参数规模与数据规模匹配等问题。跨模态与基础模型化从语言扩展到视觉、多模态再演化为现代开源/闭源通用基础模型。三、10 篇必读论文精讲1. Attention Is All You Need2017论文定位Transformer 起点整个领域的原点。1.1 解决的问题在 Transformer 之前序列建模主要依赖 RNN、LSTM 或 CNN。这类方法存在两个突出问题序列计算难以并行训练效率低长距离依赖难以有效建模信息容易衰减。1.2 核心创新论文提出了完全基于注意力机制的编码器-解码器架构核心包括Self-Attention自注意力Multi-Head Attention多头注意力Positional Encoding位置编码Residual Connection LayerNorm1.3 关键意义它首次证明不依赖循环和卷积仅靠注意力机制也能高效完成序列建模。1.4 结论Transformer 不是某个局部模块的优化而是一次序列建模范式切换。后来的 BERT、GPT、ViT、LLaMA本质上都建立在这篇论文定义的骨架之上。2. BERT2018论文定位双向预训练语言模型代表作NLP 理解任务里程碑。2.1 解决的问题传统单向语言模型只能从左到右或从右到左建模无法同时充分利用左右上下文。这对分类、问答、自然语言推理等理解任务不够理想。2.2 核心创新BERT 提出双向 Transformer EncoderMasked Language ModelingMLMNext Sentence PredictionNSP其中 MLM 通过随机遮蔽部分词再让模型恢复原词使模型学习深层上下文表示。2.3 关键意义BERT 建立了“预训练 微调”的标准范式显著推动了 NLP 理解类任务的发展。2.4 结论BERT 的核心贡献不是“模型更深”而是Transformer 非常适合做语言表示学习双向上下文对理解任务极其关键大规模无监督预训练能显著提升下游表现。3. GPT-22019论文定位自回归生成路线的重要转折点。3.1 解决的问题此前大多数模型依赖任务特定微调。作者关注能否只依赖统一的语言建模目标就让模型具备跨任务迁移能力3.2 核心创新GPT-2 延续 GPT 的 decoder-only 架构并通过更大规模数据与模型容量展示出零样本zero-shot任务迁移能力统一的自回归语言建模范式更强的文本生成质量与通用性。3.3 关键意义GPT-2 让研究界第一次强烈感受到只做语言建模也可能学出通用任务能力。3.4 结论GPT-2 是从“预训练模型”走向“通用生成模型”的关键一步。它为 GPT-3、ChatGPT、LLaMA 等后续大模型铺平了路线。4. Transformer-XL2019论文定位长上下文建模早期代表作。4.1 解决的问题标准 Transformer 的上下文长度固定处理长文档时会出现两个问题片段之间信息中断超出窗口的历史内容无法被利用。4.2 核心创新Transformer-XL 引入了Segment-Level Recurrence片段级递归记忆Relative Positional Encoding相对位置编码模型可以缓存前一段的隐状态在后续片段继续使用。4.3 关键意义它是长上下文 Transformer 发展的重要起点证明了 Transformer 也可以具备某种“记忆机制”。4.4 结论长上下文问题不是简单把窗口调大就能解决还需要在位置建模和历史信息复用上做结构性设计。5. T52020论文定位统一 NLP 任务接口的代表作。5.1 解决的问题在 T5 之前NLP 各类任务接口并不统一分类任务输出标签翻译任务输出句子问答任务输出片段摘要任务输出长文本。这种碎片化设计不利于统一建模与迁移。5.2 核心创新T5 提出Text-to-Text Transfer Transformer把所有任务都转写成“文本输入 → 文本输出”用统一的 seq2seq Transformer 框架处理所有任务。例如分类把类别名作为输出文本翻译输出目标语言句子问答输出答案文本。5.3 关键意义T5 将不同 NLP 任务统一到同一个接口下显著影响了后来的 instruction tuning 与 prompt learning。5.4 结论T5 的最大价值不只是模型性能而是提出了一个极其重要的方法论把复杂任务统一表示为自然语言条件生成问题。6. GPT-32020论文定位大规模语言模型与 in-context learning 的标志性工作。6.1 解决的问题传统微调成本高每个任务都要单独准备数据和训练过程。作者考虑模型是否可以仅通过提示词和少量示例就直接适应新任务6.2 核心创新GPT-3 主要创新在于规模化参数量扩展到 175B展示了强大的 zero-shot、one-shot、few-shot 能力强化了 decoder-only 大模型路线的通用性。6.3 关键意义GPT-3 让整个领域开始重视模型规模数据规模提示学习上下文学习能力。6.4 结论GPT-3 的里程碑意义在于它证明了规模本身会改变模型能力形态。模型不只是“更准”而是开始表现出新的通用行为模式。7. ViT2020论文定位视觉 Transformer 起点。7.1 解决的问题Transformer 在 NLP 上非常成功但图像任务长期由 CNN 主导。问题是图像不像文本那样天然是离散 token 序列Transformer 能否直接处理图像7.2 核心创新ViT 提出将图像划分为固定大小的Patch每个 patch 展平并映射为一个 token embedding将整张图像表示为 patch token 序列送入 Transformer Encoder7.3 关键意义ViT 首次清晰证明图像也可以 token 化Transformer 也可以作为视觉主干网络。7.4 结论ViT 的价值在于将 Transformer 从语言推广到视觉推动了视觉任务从 CNN 时代向 Transformer 时代过渡。8. CLIP2021论文定位现代图文对齐与多模态预训练代表作。8.1 解决的问题传统视觉分类模型通常依赖固定类别标签泛化能力受限。例如一个模型训练在 ImageNet 上很难直接识别未显式标注过的新类别。8.2 核心创新CLIP 使用大规模图文对数据进行对比学习图像编码器提取图像特征文本编码器提取文本特征将图像与对应文本拉近不匹配样本拉远。8.3 关键意义CLIP 带来了零样本图像分类能力视觉与语言的统一语义空间多模态大模型的重要基础。8.4 结论CLIP 的核心不只是“图像分类更强”而是把视觉问题变成了语义对齐问题。9. Chinchilla2022论文定位大模型 scaling law 方法论关键论文。9.1 解决的问题过去很多大模型训练都在盲目堆参数但训练 token 数并未同步增加。这会导致模型很大却没有被充分训练。9.2 核心创新Chinchilla 提出compute-optimal scaling law指出固定算力预算下并不是参数越大越好参数规模和训练 token 数量需要合理匹配许多已有大模型其实处于“参数过大、数据不足”的状态。9.3 关键意义它改变了大模型训练理念从“无脑堆参数”转向“参数、数据、训练算力协同优化”9.4 结论Chinchilla 让人们认识到更大的模型不一定更优训练是否充分同样关键。10. Llama 32024论文定位现代开源基础模型的代表。10.1 解决的问题开源模型长期落后于闭源模型。核心问题是开源路线能否在通用语言理解、代码、多语言、长上下文等方面接近闭源最强系统10.2 核心创新Llama 3 代表的是新一代高质量开源基座模型路线特征包括更大规模的 dense Transformer更长上下文支持更强的多语言与代码能力更成熟的训练数据与对齐策略10.3 关键意义Llama 3 标志着 Transformer 已不只是研究模型而是已经成为现代通用基础模型平台。10.4 结论Llama 3 并不是重新发明 Transformer而是说明Transformer 体系已经足够成熟工业界竞争重心正在从“提出架构”转向“训练体系、数据工程、对齐能力和生态开放”。四、10 篇论文的演化逻辑总结可以将这 10 篇分成四组来理解4.1 架构起点Attention Is All You Need这一阶段回答的是什么是 Transformer为什么 attention 可以取代 RNN/CNN。4.2 预训练范式确立BERTGPT-2T5GPT-3这一阶段回答的是Transformer 如何做预训练如何从语言表示学习走向通用生成。4.3 能力边界与训练规律Transformer-XLChinchilla这一阶段回答的是如何扩展上下文长度如何合理扩展模型规模。4.4 视觉、多模态与现代基础模型ViTCLIPLlama 3这一阶段回答的是Transformer 如何从 NLP 扩展到视觉、多模态并最终成为通用基础模型平台。五、综述结论从 2017 到 2024Transformer 的演化不是简单的“模型越来越大”而是经历了几个关键阶段提出纯注意力架构替代传统序列模型形成双向理解与自回归生成两条预训练主线解决长上下文与规模扩展问题扩展到视觉和多模态演化为现代基础模型的统一底座因此可以说Transformer 最重要的贡献不只是提出了一种模型结构而是提供了一种统一建模思想把语言、图像乃至多模态任务统一为 token 之间关系的建模问题。六、建议阅读顺序如果希望真正读懂这 10 篇论文推荐顺序如下Attention Is All You NeedBERTGPT-2T5GPT-3Transformer-XLViTCLIPChinchillaLlama 3这个顺序的优点是先理解 Transformer 基本原理再理解 NLP 预训练两大路线再理解长上下文与规模化最后理解视觉、多模态与现代开源基座模型。

更多文章