标签：Post Training - 我的博客

- 首页
- 归档
- 分类
- 标签
- 关于

LLM Post-Training

一文读懂大模型后训练（Post-Training）预训练给了模型”知识”，后训练给了模型”灵魂”。目录什么是后训练？后训练的整体流程监督微调（SFT）奖励模型（Reward Model）强化学习对齐（RLHF / PPO）直接偏好优化（DPO）拒绝采样微调（RFT） GRPO 与推理模型训练各方法横向对比工程实践要点前沿趋势一、什么是后训练？大模型...

2026-02-17 LLM

粘贴文本
全选文本
剪切文本
复制文本
站内搜索
必应搜索
新标签页打开
复制链接地址
复制图片
谷歌识图

查看上一篇
查看下一篇

常见问题
示例博客
加入社区

本站源码
主题源码

暗黑模式

打印页面
阅读模式