Transformer 架构详解

2026年4月30日 · 阅读约 6 分钟

2017 年，Google 发表了一篇名为《Attention Is All You Need》的论文，提出了 Transformer 架构。这篇论文改变了一切——当今所有主流大模型（GPT、GLM、Claude、Llama）都基于它。

它解决了什么问题？

在 Transformer 之前，处理文本主要用 RNN（循环神经网络）和 LSTM。它们有一个致命缺陷：无法并行处理，必须一个词一个词地顺序读取，导致训练速度慢，且难以捕捉长距离依赖。

Transformer 用自注意力机制（Self-Attention）解决了这个问题——它可以同时"看到"句子中的所有词。

注意力机制的核心思想：处理某个词时，应该关注哪些其他词。

举个例子：

"它是一只猫，它喜欢睡觉。"

当模型处理第二个"它"时，注意力机制让它知道这里的"它"指的是"猫"，而不是其他词。

实现方式是通过三个矩阵：Q（Query）、K（Key）、V（Value）：

Transformer 不只用一次注意力，而是用多个头并行计算。每个头关注不同的方面——有的关注语法关系，有的关注语义关系，有的关注位置关系。

这就像一群人同时从不同角度阅读同一篇文章，最后汇总各自的理解。

由于 Transformer 不像 RNN 那样按顺序处理，它需要一种方式知道词的顺序。解决方案是给每个位置加上一个"位置编码"向量，让模型知道每个词在第几个位置。

原始 Transformer 有两部分：

现代大模型大多采用"Decoder-Only"架构，即只用解码器部分，因为它在文本生成任务上表现最好。

Transformer 是当前 AI 浪潮的基石。理解它，就理解了大模型的一半。