大模型是怎么训练出来的

2026年4月30日 · 阅读约 7 分钟

训练一个大模型不是一件简单的事。从零开始到能用，通常经历三个阶段：预训练、微调和对齐。

第一阶段：预训练（Pre-training）

这是最耗时、最昂贵的阶段。模型阅读互联网上的海量文本——网页、书籍、论文、代码、维基百科……总量可达数万亿 token。

训练目标很简单：预测下一个词。给模型一段文本的前半部分，让它预测下一个词，然后和实际词对比，调整参数。

这个过程要重复数千亿次。一个顶级模型的预训练可能需要数千张 A100 GPU 运行数周到数月，电费和硬件成本高达数百万甚至数千万美元。

预训练完成后，模型具备了广泛的语言理解能力，但还不能很好地"对话"——它只会续写文本，而不是回答问题。

接下来用高质量的指令数据对模型进行微调。这些数据是人工编写或精选的"问题-回答"对。

例如：

通过数万到数十万条这样的数据，模型学会了以对话格式回应，而不是随意续写。

微调还有一种高效方法叫 LoRA（Low-Rank Adaptation），只训练模型的一小部分参数，成本低很多，个人开发者也能用。

微调后的模型能力不错，但可能有不当输出。对齐阶段通过 RLHF（基于人类反馈的强化学习）来调整模型行为。

RLHF 的流程：

经过 RLHF，模型变得更有用、诚实、无害。这就是为什么 ChatGPT 能礼貌地拒绝不当请求。

训练完成后，模型部署为服务。每次你发一条消息，服务器上的 GPU 执行一次前向传播——输入你的文字，逐词生成回答。

推理的成本也不低。GPT-4 级别的模型每次回复可能消耗数千次浮点运算，这也是为什么 API 调用要收费。

预训练 → 微调 → 对齐，三步走。预训练赋予知识，微调赋予技能，对齐赋予价值观。这就是一个大模型从"无知"到"可用"的完整旅程。