抱歉,您的浏览器无法访问本站
本页面需要浏览器支持(启用)JavaScript
了解详情 >

一文读懂大模型后训练(Post-Training) 预训练给了模型”知识”,后训练给了模型”灵魂”。 目录 什么是后训练? 后训练的整体流程 监督微调(SFT) 奖励模型(Reward Model) 强化学习对齐(RLHF / PPO) 直接偏好优化(DPO) 拒绝采样微调(RFT) GRPO 与推理模型训练 各方法横向对比 工程实践要点 前沿趋势 一、什么是后训练?大模型...