大模型是怎么训练出来的
训练一个大模型不是一件简单的事。从零开始到能用,通常经历三个阶段:预训练、微调和对齐。
第一阶段:预训练(Pre-training)
这是最耗时、最昂贵的阶段。模型阅读互联网上的海量文本——网页、书籍、论文、代码、维基百科……总量可达数万亿 token。
训练目标很简单:预测下一个词。给模型一段文本的前半部分,让它预测下一个词,然后和实际词对比,调整参数。
这个过程要重复数千亿次。一个顶级模型的预训练可能需要数千张 A100 GPU 运行数周到数月,电费和硬件成本高达数百万甚至数千万美元。
预训练完成后,模型具备了广泛的语言理解能力,但还不能很好地"对话"——它只会续写文本,而不是回答问题。
第二阶段:微调(Fine-tuning)
接下来用高质量的指令数据对模型进行微调。这些数据是人工编写或精选的"问题-回答"对。
例如:
- 用户:"用 Python 写一个快排"
- 助手:"这是快速排序的 Python 实现……"
通过数万到数十万条这样的数据,模型学会了以对话格式回应,而不是随意续写。
微调还有一种高效方法叫 LoRA(Low-Rank Adaptation),只训练模型的一小部分参数,成本低很多,个人开发者也能用。
第三阶段:对齐(Alignment)
微调后的模型能力不错,但可能有不当输出。对齐阶段通过 RLHF(基于人类反馈的强化学习)来调整模型行为。
RLHF 的流程:
- 让模型对同一个问题生成多个回答
- 人工标注员按质量排序(哪个回答更好)
- 训练一个"奖励模型"学习人类的偏好
- 用强化学习(PPO 算法)优化大模型,让它生成奖励模型更喜欢的回答
经过 RLHF,模型变得更有用、诚实、无害。这就是为什么 ChatGPT 能礼貌地拒绝不当请求。
推理阶段
训练完成后,模型部署为服务。每次你发一条消息,服务器上的 GPU 执行一次前向传播——输入你的文字,逐词生成回答。
推理的成本也不低。GPT-4 级别的模型每次回复可能消耗数千次浮点运算,这也是为什么 API 调用要收费。
总结
预训练 → 微调 → 对齐,三步走。预训练赋予知识,微调赋予技能,对齐赋予价值观。这就是一个大模型从"无知"到"可用"的完整旅程。