Hitme Blog
首页
归档
分类
标签
关于
首页
归档
分类
标签
关于
Hitme Blog
不要停下思考的脚步
首页
归档
分类
标签
关于
LLM Post-Training
一文读懂大模型后训练(Post-Training) 预训练给了模型”知识”,后训练给了模型”灵魂”。 目录 什么是后训练? 后训练的整体流程 监督微调(SFT) 奖励模型(Reward Model) 强化学习对齐(RLHF / PPO) 直接偏好优化(DPO) 拒绝采样微调(RFT) GRPO 与推理模型训练 各方法横向对比 工程实践要点 前沿趋势 一、什么是后训练?大模型...
2026-02-17
LLM
LLM
阅读全文
粘贴文本
全选文本
剪切文本
复制文本
站内搜索
必应搜索
新标签页打开
复制链接地址
复制图片
谷歌识图
查看上一篇
查看下一篇
常见问题
示例博客
加入社区
本站源码
主题源码
暗黑模式
打印页面
阅读模式