一文读懂大模型后训练(Post-Training)
预训练给了模型”知识”,后训练给了模型”灵魂”。
目录
- 什么是后训练?
- 后训练的整体流程
- 监督微调(SFT)
- 奖励模型(Reward Model)
- 强化学习对齐(RLHF / PPO)
- 直接偏好优化(DPO)
- 拒绝采样微调(RFT)
- GRPO 与推理模型训练
- 各方法横向对比
- 工程实践要点
- 前沿趋势
一、什么是后训练?
大模型的训练分为两个阶段:
1 | 预训练(Pre-training) 后训练(Post-training) |
一句话理解: 预训练让模型”博览群书”,后训练让模型”知道怎么说话”。
没有后训练的 Base Model 会续写任何输入——包括有害内容、胡乱补全指令等。后训练的核心目标是让模型做到:
- 有用(Helpful):能准确理解并完成用户指令
- 无害(Harmless):拒绝有害、违法、不道德的请求
- 诚实(Honest):不编造事实,承认不确定性
这三个目标合称 3H 对齐原则,是 Anthropic、OpenAI 等公司的核心研究方向。
二、后训练的整体流程
现代大模型后训练通常分三步走:
1 | Base Model |
不同公司/项目的具体路线有所差异,但大体遵循这一框架。后文会逐一拆解每个步骤。
三、监督微调(SFT)
是什么
Supervised Fine-Tuning,用人工标注的高质量(指令, 回答)对,对 Base Model 进行有监督训练。
数据长什么样
1 | { |
数据集通常包含:
- 指令跟随:翻译、总结、改写、分类
- 知识问答:事实性问题
- 代码生成:写代码、调试、解释代码
- 多轮对话:角色扮演、聊天
- 安全拒绝:对有害请求给出正确的拒绝回复
训练目标
和预训练一样是语言模型的 Next Token Prediction(NTP),但只计算 output 部分的 loss:
1 | Loss = -Σ log P(output_token_i | instruction, output_token_1...i-1) |
instruction 部分的 token 不参与梯度计算,只作为上下文。
关键超参数
| 参数 | 典型值 | 说明 |
|---|---|---|
| Learning Rate | 1e-5 ~ 5e-5 | 远小于预训练,防止遗忘 |
| Epochs | 1 ~ 3 | 太多容易过拟合 |
| Batch Size | 64 ~ 256 | 视显存而定 |
| Max Length | 2048 ~ 8192 | 覆盖长对话 |
SFT 的局限
SFT 教会了模型”格式”,但不能区分哪个回答更好。如果给定同一问题有两个答案 A 和 B,SFT 无法让模型偏好更好的那个。这就需要引入奖励模型。
四、奖励模型(Reward Model)
为什么需要奖励模型
人类无法对每一条模型输出打分,但可以比较两个回答哪个更好。奖励模型(RM)就是学习这种相对偏好的裁判。
数据构造
收集人类偏好数据的流程:
1 | 同一个 prompt |
最终得到三元组:(prompt, chosen, rejected)
训练目标
使用 Bradley-Terry 模型,最大化”好回答得分高于差回答”的概率:
1 | Loss = -E[log σ(r(x, y_w) - r(x, y_l))] |
架构
奖励模型通常基于 SFT 模型,去掉语言模型头,换成一个线性层输出单个标量分数:
1 | [SFT Model Backbone] |
奖励黑客(Reward Hacking)
奖励模型并不完美,策略模型可能会学会”欺骗”它——生成能得高分但实际质量差的回答(比如:回答特别长、充斥恭维语气等)。
这是 RLHF 最核心的挑战之一,后文的 KL 惩罚项就是为了缓解这个问题。
五、强化学习对齐(RLHF / PPO)
整体框架
RLHF(Reinforcement Learning from Human Feedback)是将强化学习引入大模型对齐的关键技术,由 OpenAI 在 InstructGPT 论文中系统提出。
系统中有四个模型同时运行:
1 | ┌──────────────────────────────────────────────────────┐ |
PPO 训练目标
1 | maximize E[r_θ(x, y)] - β · KL[π_θ(y|x) || π_ref(y|x)] |
KL 惩罚的作用:防止模型为了追求高奖励而偏离 SFT 模型太远,变成奇怪的分布(奖励黑客)。
训练流程(每次迭代)
1 | 1. Actor 对 prompt 采样生成回答 |
PPO 的痛点
PPO 虽然效果好,但工程复杂度极高:
- 需要同时维护 4 个模型,显存压力大
- 超参数敏感,调参困难
- 训练不稳定,容易崩溃
- 采样效率低
这些问题催生了更简洁的替代方案——DPO。
六、直接偏好优化(DPO)
核心思想
DPO(Direct Preference Optimization,2023)是斯坦福大学提出的方法,绕过了奖励模型和强化学习,直接从偏好数据中优化策略。
它证明了:RLHF 的最优解可以用一个封闭形式表达,进而将 RL 问题转化为一个普通的分类损失。
训练目标
1 | Loss_DPO = -E[log σ(β · log(π_θ(y_w|x)/π_ref(y_w|x)) |
DPO vs RLHF 对比
1 | RLHF/PPO DPO |
数据格式
1 | { |
DPO 的局限
- 对参考模型(
π_ref)依赖强,参考模型质量差则效果有限 - 难以进行在线学习(需要固定的偏好对)
- 在极复杂推理任务上效果不如 PPO
七、拒绝采样微调(RFT)
是什么
Rejection Sampling Fine-Tuning,又称 Best-of-N 微调,是一种简单而有效的方法:
1 | 对每个 prompt: |
为什么有效
模型自己已经具备生成好答案的能力,只是概率不高。RFT 通过”精选”把高质量样本的权重放大,相当于提纯训练数据。
适用场景
RFT 特别适合有明确正确答案的任务:
- 数学题(答案对错可验证)
- 代码(能运行且通过测试用例)
- 结构化输出(格式是否符合 schema)
Meta 在 Llama 系列、DeepSeek 在数学推理模型中都大量使用了 RFT。
八、GRPO 与推理模型训练
推理模型的新范式
以 OpenAI o1、DeepSeek-R1 为代表的推理模型,引入了 Chain-of-Thought(思维链) 强化学习训练:
1 | 普通模型: 推理模型: |
模型在回答前先进行”内部推理”,显著提升了数学、代码、逻辑推理能力。
GRPO 算法
Group Relative Policy Optimization(DeepSeek 提出)是专门为推理模型设计的 RL 算法,简化了 PPO 中的 Critic 模型:
PPO 的优势函数估计:需要单独训练一个 Critic 网络
GRPO 的做法:对同一 prompt 采样一组回答(Group),用组内相对排名代替 Critic:
1 | # 对同一 prompt 采样 G 个回答 |
奖励函数设计
推理模型的奖励函数通常是可验证的规则,而非神经网络:
1 | def reward_fn(response, ground_truth): |
这种基于规则的验证奖励完全绕开了奖励模型,避免了奖励黑客问题。
九、各方法横向对比
| 维度 | SFT | RLHF/PPO | DPO | RFT | GRPO |
|---|---|---|---|---|---|
| 数据类型 | (指令, 回答) | (prompt, chosen, rejected) | (prompt, chosen, rejected) | prompt + 验证器 | prompt + 验证器 |
| 是否需要奖励模型 | 否 | 是 | 否 | 是(或规则) | 否(或规则) |
| 训练复杂度 | 低 | 高 | 中 | 低 | 中 |
| 计算成本 | 低 | 高 | 低 | 中 | 中 |
| 训练稳定性 | 高 | 低 | 高 | 高 | 中 |
| 效果上限 | 中 | 高 | 中高 | 中高 | 高(推理任务) |
| 适用场景 | 通用能力 | 通用对齐 | 通用对齐 | 可验证任务 | 推理/数学/代码 |
| 代表模型 | 所有模型必经 | InstructGPT | Zephyr、Llama3 | Llama2、DeepSeek | DeepSeek-R1 |
实际工程中往往组合使用,典型流程:
1 | Base Model → SFT → DPO/RLHF → RFT(数学/代码) → Chat Model |
十、工程实践要点
数据质量 > 数据数量
后训练对数据质量极度敏感。业界经验:
- 1000 条高质量数据 >> 100000 条低质量数据
- 数据去重、清洗比扩充数量更重要
- 需要人工抽检,防止标注错误污染模型
防止灾难性遗忘
微调时模型可能”忘记”预训练的知识,常见对策:
1 | # 1. 小学习率 |
LoRA 微调
对于资源有限的场景,LoRA(Low-Rank Adaptation)是主流选择:
1 | 全量微调:更新所有参数(7B 模型 = 280GB 梯度显存) |
评估体系
后训练效果评估需要多维度:
1 | 自动评估: |
安全对齐(Constitutional AI)
Anthropic 提出的 **CAI(Constitutional AI)**方法:
1 | 1. 定义一套"宪法"(一组原则,如"不能帮助制作武器") |
这种方法减少了对大量人工标注的依赖,Claude 系列模型使用了这一方法。
十一、前沿趋势
合成数据崛起
人工标注成本高、速度慢。2024 年起,业界大量使用更强的模型(如 GPT-4、Claude)生成训练数据:
1 | 强教师模型生成高质量回答 |
Meta 的 Llama3、阿里的 Qwen 系列都大量使用了合成数据。
长思维链训练(Long CoT)
DeepSeek-R1、Kimi k1.5 等模型证明:通过 RL 训练更长的思维链可以显著提升推理能力,且涌现出类人的”顿悟”行为(自我反思、回溯、验证)。
多模态后训练
视觉语言模型(VLM)的后训练逐渐成熟,图文理解、图文生成的对齐方法正在快速发展。
过程奖励模型(PRM)
传统的结果奖励(ORM)只看最终答案对不对,过程奖励模型(PRM)对推理的每一步打分:
1 | ORM:最终答案正确 → +1,错误 → 0 |
总结
1 | 后训练技术演进路线: |
后训练是让大模型从”会说话”到”会做事”、从”知识库”到”智能助手”的关键一跳。随着合成数据、过程奖励、推理时计算扩展等方向的发展,后训练仍是当前大模型研究中最活跃的领域之一。
参考资料
- InstructGPT: Training language models to follow instructions with human feedback — OpenAI, 2022
- Direct Preference Optimization: Your Language Model is Secretly a Reward Model — Stanford, 2023
- Constitutional AI: Harmlessness from AI Feedback — Anthropic, 2022
- DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning — DeepSeek, 2025
- Llama 2: Open Foundation and Fine-Tuned Chat Models — Meta, 2023