当前位置:首页
> 偏好对齐
从RLHF到DPO:大模型偏好对齐的“进化之路”
当我们惊叹于AI能精准理解人类意图、输出符合期待的内容时,背后离不开“偏好对齐”技术的支撑——它让模型从“能输出内容”,进阶到“输出人类想要的内容”。而RLHF与DPO,正是这一领域的两代核心技术,共同推动着AI的“人性化”进程。 一、RLHF:偏好对齐的“奠基者”RLHF(人类反馈强化学习)是大模型早期实现偏好对齐的主流方案,由OpenAI在GPT-3.5时代推向成熟,其核心是通过“人类反馈-...


