当前位置：首页 > AI > 正文内容

从RLHF到DPO：大模型偏好对齐的“进化之路”

iliudar5个月前 (11-18)AI73

当我们惊叹于AI能精准理解人类意图、输出符合期待的内容时，背后离不开“偏好对齐”技术的支撑——它让模型从“能输出内容”，进阶到“输出人类想要的内容”。而RLHF与DPO，正是这一领域的两代核心技术，共同推动着AI的“人性化”进程。

一、RLHF：偏好对齐的“奠基者”

RLHF（人类反馈强化学习）是大模型早期实现偏好对齐的主流方案，由OpenAI在GPT-3.5时代推向成熟，其核心是通过“人类反馈-奖励建模-强化学习”的三步流程，让模型学会迎合人类偏好：

第一步：收集人类反馈
让标注人员对模型的多个输出打分、排序，明确“优质回答”与“劣质回答”的差异（比如更通顺、更符合伦理的回答会被标为高分）。
第二步：训练奖励模型（RM）
用标注好的偏好数据训练一个“奖励模型”，让它能像人类一样，自动给模型输出打分（替代人工标注，实现规模化对齐）。
第三步：强化学习优化
以奖励模型的打分为“目标”，用强化学习（RL）微调基础模型，让模型在生成内容时，主动向“高奖励”的方向调整。

RLHF的价值：首次实现了大模型与人类意图的大规模对齐，是ChatGPT等早期对话模型“好用”的核心原因；但它的缺点也很突出——流程复杂、训练成本极高（需同时维护基础模型、奖励模型，强化学习阶段算力消耗巨大），且多轮迭代中容易出现“奖励模型过拟合”（模型学会“讨好”奖励模型而非真实人类偏好）。

二、DPO：偏好对齐的“轻量化革新者”

DPO（直接偏好优化）是2023年兴起的新一代偏好对齐技术，它针对RLHF的痛点做了“减法”，核心是跳过奖励模型与强化学习的复杂流程，直接用偏好数据优化模型：
其原理是基于“对比学习”思路：给模型输入“同一问题的优质回答A、劣质回答B”，让模型学习“生成A时概率更高，生成B时概率更低”。
具体操作仅需两步：

收集“问题+优质回答+劣质回答”的配对数据；
用这组数据直接微调基础模型，通过损失函数约束模型的输出偏好。

DPO的突破：流程简化后，训练成本仅为RLHF的1/3，且无需额外维护奖励模型，落地门槛大幅降低；同时，它在多数任务中能达到与RLHF接近的对齐效果，甚至在部分场景下更稳定（避免了奖励模型过拟合的问题）。
不过DPO也有局限：对“优质/劣质回答”的配对数据质量要求极高，且在复杂多轮对话的偏好对齐上，效果略逊于RLHF的深度优化版本。