← 返回博客

大模型是怎么训练出来的

2026年4月30日 · 阅读约 7 分钟

训练一个大模型不是一件简单的事。从零开始到能用,通常经历三个阶段:预训练、微调和对齐。

第一阶段:预训练(Pre-training)

这是最耗时、最昂贵的阶段。模型阅读互联网上的海量文本——网页、书籍、论文、代码、维基百科……总量可达数万亿 token。

训练目标很简单:预测下一个词。给模型一段文本的前半部分,让它预测下一个词,然后和实际词对比,调整参数。

这个过程要重复数千亿次。一个顶级模型的预训练可能需要数千张 A100 GPU 运行数周到数月,电费和硬件成本高达数百万甚至数千万美元。

预训练完成后,模型具备了广泛的语言理解能力,但还不能很好地"对话"——它只会续写文本,而不是回答问题。

第二阶段:微调(Fine-tuning)

接下来用高质量的指令数据对模型进行微调。这些数据是人工编写或精选的"问题-回答"对。

例如:

通过数万到数十万条这样的数据,模型学会了以对话格式回应,而不是随意续写。

微调还有一种高效方法叫 LoRA(Low-Rank Adaptation),只训练模型的一小部分参数,成本低很多,个人开发者也能用。

第三阶段:对齐(Alignment)

微调后的模型能力不错,但可能有不当输出。对齐阶段通过 RLHF(基于人类反馈的强化学习)来调整模型行为。

RLHF 的流程:

经过 RLHF,模型变得更有用、诚实、无害。这就是为什么 ChatGPT 能礼貌地拒绝不当请求。

推理阶段

训练完成后,模型部署为服务。每次你发一条消息,服务器上的 GPU 执行一次前向传播——输入你的文字,逐词生成回答。

推理的成本也不低。GPT-4 级别的模型每次回复可能消耗数千次浮点运算,这也是为什么 API 调用要收费。

总结

预训练 → 微调 → 对齐,三步走。预训练赋予知识,微调赋予技能,对齐赋予价值观。这就是一个大模型从"无知"到"可用"的完整旅程。