训练:偏好数据与对齐失效
很多团队在做对齐时,会把注意力集中在 RLHF、DPO、IPO、ORPO 这样的算法名字上。
但现实里更决定结果的,往往是偏好数据长什么样、偏好标签是否一致、对齐目标是否和真实业务一致,以及奖励或偏好目标到底在塑造什么行为。
这页重点讨论偏好数据本身,以及对齐过程中最常见的失效模式。
核心观点很简单:
对齐首先是数据设计问题,其次才是优化算法问题。
偏好对齐不是给模型灌新知识,而是在已有能力上调整“更应该怎么回答”。如果底座不会解题,偏好数据很难凭空造出数学能力;如果底座会解题但风格、风险边界和格式不好,偏好数据才更容易发挥作用。
“可以退款”和“我理解你的困扰,下面按三步帮你发起退款”可能事实都对。偏好数据要决定的是哪种语气、步骤、风险承诺和业务边界更符合产品目标,而不是只判断真假。
0. 先用 InstructGPT 图建立全局流程
如果你没有强化学习基础,先不要从 PPO 公式开始。先看 InstructGPT 原论文这张流程图:它把 RLHF 拆成三件相对朴素的事。

图源:Training language models to follow instructions with human feedback,Figure 2。原论文图意:展示 InstructGPT 的三步训练流程:收集 demonstration data 做 SFT,收集模型输出排序训练 reward model,再用 PPO 按 reward model 优化 policy。
左栏是 SFT:人类写示范回答,模型学会基本指令跟随。中栏是 reward model:同一个 prompt 下生成多个候选,标注者把 A/B/C/D 排序,reward model 学会预测“哪个更像人类偏好”。右栏才是 PPO:新 prompt 输入当前 policy,policy 生成回答,reward model 给分,PPO 用这个分数更新 policy。强化学习部分不是凭空出现的,它吃的是前两步做出来的 SFT 初始策略和 reward model。
InstructGPT 论文还给了标注界面的截图。它们很适合理解“偏好数据”到底长什么样,而不是把它想成一个抽象公式。

图源:Training language models to follow instructions with human feedback,Appendix Figure 19(a)。原论文图意:标注者先对单个模型输出做 Likert 质量评分,并标注输出是否有帮助、真实、无害、是否遵循指令等元信息。
这张界面不是简单问“好不好”,而是把 helpfulness、truthfulness、harmlessness、instruction following 等维度拆开。这样做的价值是:当模型变差时,你能知道是事实性下降、拒答过度、格式错误,还是安全边界问题。偏好数据如果只保留一个总分,后续排查会非常困难。

图源:Training language models to follow instructions with human feedback,Appendix Figure 19(b)。原论文图意:标注者在同一个 prompt 下比较多个模型输出,并把它们从最好到最差排序;这种排序数据用于训练 reward model。
排序界面的关键是“同题多答”。它不要求标注者发明一个绝对完美答案,而是比较几个候选谁更好。reward model 因此学到的是相对顺序:在同一个输入下,什么特征让一个回答比另一个更值得偏好。DPO、RLHF、RLAIF 的许多差别都在优化形式上,但它们共同依赖这类偏好关系是否稳定、可解释、覆盖真实失败模式。
最终,论文用人类偏好胜率来验证后训练是否真的改变了用户侧体验。

图源:Training language models to follow instructions with human feedback,Figure 1。原论文图意:在 API prompt 分布上比较不同模型输出相对 175B SFT baseline 的人类偏好胜率,展示 InstructGPT/RLHF 后训练相对 GPT-3 和 SFT baseline 的偏好提升。
这张图的纵轴是人类更喜欢哪个输出,而不是 reward model loss 或 next-token loss。它提醒你:对齐训练的最终证据应该来自人类偏好、任务成功率和关键风险桶,而不是只看优化目标下降。一个 reward model 可以在验证集上看起来不错,但如果标注指南、候选分布或线上任务变了,真实偏好胜率仍可能不升反降。

图源:Training language models to follow instructions with human feedback,Figure 4。原论文图意:按 prompt 来源和 labeler 分组比较不同模型相对 175B SFT baseline 的偏好胜率,用来检查偏好提升是否跨分布稳定。
这张图比单个总胜率更接近真实评测习惯:同样是 InstructGPT,不同 prompt 分布、训练标注者和 held-out 标注者的偏好结果都要看。如果只看一个平均胜率,可能掩盖“训练标注者喜欢、held-out 标注者不喜欢”或“某类 prompt 有提升、另一类 prompt 退化”的问题。偏好对齐上线前,也应该按任务类型、风险等级、语言、长度和用户群体做类似分桶。
1. 偏好数据在塑造什么
设输入为 ,两个候选回答为 。
偏好数据告诉模型的不是世界真理,而是哪种风格更好、哪种风险更可接受、哪种答法更符合人类期望、哪些边界绝不能越过。
所以偏好数据本质上是在塑造:
而不是直接注入知识。
这一点非常关键。
如果一个底座模型根本不会做微积分、不会阅读合同、不会多步代码修复,那么再多偏好数据也很难“对齐出”这种能力。
偏好对齐更像是在已有能力之上塑形,而不是凭空造能力。
2. 一个更形式化的直觉:偏好在学习排序
以 DPO 风格目标为例,常见形式可以写成:
这里真正被学到的是:在给定输入 时,模型应该更偏向哪一类输出,以及这种偏向相对于参考模型要加强多少。
所以偏好优化的核心对象是排序关系,不是绝对真值。
这也解释了为什么偏好数据一旦带着系统性偏差,模型就会很稳定地学偏。
2.1 RLHF 和 DPO 的区别先这样记
RLHF + PPO 是显式两段式:先用排序数据训练 reward model,再让 policy 生成回答并由 reward model 打分,最后由 PPO 根据 reward、value、advantage 和 KL 约束更新 policy。
DPO 则把 reward model 和 PPO 更新压缩成一个偏好优化目标:直接用 更新 policy,让优选回答相对 reference model 更可能,劣选回答相对更不可能。
两者不是“一个有偏好数据,一个没有偏好数据”。它们都依赖偏好数据。区别在于:RLHF 显式学一个可复用的 reward model,再做强化学习;DPO 不显式训练 reward model,训练流程更直接,但同样会受 reference model、、偏好噪声和候选分布影响。
偏好信号只告诉模型某些回答更受欢迎,不保证这些回答保持底座全部能力。KL 或 reference 项相当于“不要离原模型太远”的约束。没有这个约束,模型可能为了赢偏好样本而牺牲事实性、多样性、长上下文能力或代码能力;约束太强,又学不到足够偏好变化。因此对齐不是单纯追高 reward,而是在偏好收益和能力保持之间找平衡。
3. 好的偏好数据长什么样
理想偏好数据至少要区分度明确、标注标准一致、与真实任务接近、覆盖关键失败模式,并对安全、帮助性和风格有可分解定义。
如果偏好对差异太模糊,模型很难学到稳定方向。
3.1 区分度明确
最好能回答“为什么 A 比 B 好”。
如果标注者自己都只能说“感觉这个更顺眼”,那么模型学到的往往是高噪声风格偏好。
3.2 标注标准一致
同类任务如果今天重准确、明天重礼貌、后天重篇幅,模型最终会学成一种折中但不稳定的行为。
3.3 与真实任务接近
如果偏好样本大多来自人工构造的“教材式问题”,但线上真实流量充满上下文缺失、模糊需求、长文档和工具调用,那么离线偏好再漂亮,线上也很可能错位。
3.4 覆盖关键失败模式
真正有价值的偏好样本,不只是“普通问题的两个回答谁更好”,而是容易产生幻觉、容易过度拒答、容易啰嗦、高风险领域边界不清、需要结构化输出的复杂问题。
4. 一个直观例子:客服场景
对于用户投诉退款,两个回答可能都是“对的”,但偏好数据会告诉模型:更礼貌、更直接给出解决路径、更少绕圈和说教、更能安抚情绪但不夸大承诺的回答更优。
这说明偏好对齐的价值常常体现在“体验层”,而不是“会不会”。
如果把同一个问题放在不同业务目标下,偏好顺序甚至会发生变化:高端客服更重礼貌和解释充分,紧急故障处理更重直接步骤,高风险金融投诉更重合规措辞和准确边界。
这再次说明:
偏好不是普世真理,而是任务化、业务化的选择。
5. 偏好数据最常见的噪声来源
5.1 标注员偏好不一致
有人偏爱简洁,有人偏爱详尽;
有人认为“保守更安全”,有人认为“给出尽量多可行信息更有帮助”。
如果没有细化指南,模型最后学到的是标注团队的平均人格,而不是产品想要的人格。
5.2 标注准则过于模糊
例如只写“选更好的回答”,但没有具体定义什么叫更好,准确性和礼貌冲突时谁优先,简洁和完整冲突时谁优先,什么时候应拒答、什么时候应部分回答。
这会导致同类样本打标风格漂移。
5.3 偏好数据与业务目标错位
例如标注强调礼貌,但真实业务更需要准确和结构化。
或者标注数据大多是英文开发者问答,而线上核心用户是中文企业客服。
5.4 候选回答分布太单一
如果偏好数据里的两个候选都来自同一种模型、同一种 prompt 模板,差异会很窄。
模型最后学到的也许只是微弱措辞偏好,而不是对严重错误的识别能力。
5.5 奖励黑客式样本不足
如果数据里缺少“看起来很安全但其实没帮助”“看起来很专业但实际上是幻觉”的样本,模型很容易学会表面最优策略。
6. 对齐失效模式总览
下面这些失效模式在真实系统里非常常见,而且经常不是算法单独导致的。
失效 1:过度保守
模型会拒答本该回答的问题,输出很安全但很空,遇到稍微不确定的问题就回避。
这种失效在医疗、法律、金融等高风险场景尤其常见。
团队为了压低风险,偏好数据大量奖励“保守表达”,结果模型把“谨慎”学成了“缩手缩脚”。
失效 2:模板化严重
模型学会一种“看起来很对齐”的风格,例如先道歉、再提醒风险、再给笼统建议、最后建议咨询专业人士。
这种模板在单条样本上看似不错,但一旦频繁出现,帮助性会快速下降。
失效 3:能力被压制
过强对齐可能让原本的推理和探索能力变弱。
典型表现包括复杂问题回答开始缩短,模型不愿进行假设分析,代码修复更保守,多步推理中途提前收手。
失效 4:只在离线偏好集上好看
真实用户流量中,问题类型和容错边界并不相同。
离线偏好集若过于干净、短小和可控,就会造成明显的 offline-online gap。
失效 5:风格变好了,事实性变差了
有些偏好训练会让模型更礼貌、更像“好助手”,但却更容易在事实不确定时编出完整答案。
因为偏好数据奖励了“像样的回答”,却没有足够惩罚“漂亮的错答”。
失效 6:局部安全策略与全局任务目标冲突
例如在企业运维助手里,偏好数据奖励“谨慎,不轻易给危险命令”,但真实业务又要求紧急情况下快速给出准确修复动作。
如果没有细分风险等级,模型会在关键场景里反而显得不够有用。
7. 一个很实际的分解:偏好对齐在同时优化哪些维度
可以把偏好目标粗略写成:
现实困难在于这些子目标彼此会冲突,不同业务下 完全不同,标注过程也往往没有显式告诉模型这些权重。
于是模型只能从偏好样本里“猜测”团队想要什么。
如果样本设计不清楚,最终输出就会变成一种难以解释的折中。
8. 为什么对齐问题常常不是算法问题
现实中很多失败,并不是 DPO 比 RLHF 差,或者反过来,而是偏好数据质量不够、标注标准不清、业务目标没拆清楚、候选回答分布过窄、高风险长尾样本太少。
所以做对齐时,算法只是最后一层,前面偏好数据设计更关键。
这也是为什么很多团队会发现:换了新算法,提升有限;但一旦重做偏好指南、补关键失败样本、引入线上反馈,效果会立刻改善。
9. 三个典型业务例子
9.1 编程助手
如果偏好数据过度偏爱“保守不执行”,模型会更少给出具体修复,更喜欢说“需要更多信息”,也更少主动提出合理假设。
这会直接伤害开发者体验。
9.2 企业知识库问答
如果偏好数据过度奖励“看起来完整”,模型可能在检索证据不足时仍然给出过度肯定的结论。
正确的做法应是把“证据约束”纳入偏好标准。
9.3 青少年教育助手
这里的偏好重点可能是正向引导、解释清晰、避免危险建议和用词温和。
这和企业运维、法律助手、研究助手的对齐目标显然完全不同。
10. 如何设计更好的偏好标签结构
一个更稳的办法,不是只给二元偏好,而是给分解标签,例如准确性、帮助性、安全性、风格、结构化程度和引用证据是否充分。
即使最终训练时仍然会合成一个总目标,分解标签也能帮助团队发现标注冲突来自哪里,在不同业务里调整权重,并更方便地做错误分析和回放。
11. 偏好数据采集时的实践建议
11.1 候选回答要足够多样
不要只从一个模型采两条回答。最好混合基座模型回答、SFT 模型回答、当前线上模型回答,以及不同 prompt 模板下的回答。
这样偏好数据才真正覆盖“风格差异”和“错误差异”。
11.2 把代表性失败样本单独建池
例如容易幻觉、用户表达模糊、需要结构化输出、极易过度拒答的问题,都应该单独建池。
这些样本的训练价值常常远高于普通样本。
11.3 在线反馈一定要回流
如果只依赖离线标注,偏好目标很容易逐渐脱离真实用户体验。
尤其产品迭代后,用户任务结构可能会明显变化。
12. 一份对齐项目的检查清单
在真正启动偏好训练前,建议至少确认:到底想优化准确、帮助、安全、风格中的哪几项;这些目标有无优先级;标注指南能否处理冲突情形;偏好样本是否覆盖高风险长尾;是否保留线上失败样本;离线评测是否覆盖过度拒答、事实性、结构化输出等维度;上线后是否有持续反馈闭环。
13. 一个总判断
偏好对齐最难的,从来不是把公式写出来,而是决定“你到底想让模型更像什么样的人”。
一旦这个目标没拆清楚,再漂亮的对齐算法也很难稳定成功。
更准确地说,偏好对齐的真正难点,是把业务目标拆成可标注的偏好维度,把长尾失败模式稳定送进训练集,并把离线排序收益转成线上真实帮助性提升。
只要这三件事没打通,对齐就很容易停留在“回答更像助手了”,却没有真正变得更有用。
工程收束
偏好对齐不是单独调一个 loss,而是把“想要什么行为”翻译成可标注、可复验、可回流的数据制度。上线前要校准 judge,按任务桶做人审抽查,区分风格收益与能力收益,并把关键配置、数据快照、失败案例、回滚条件和下游接口说明版本化;否则对齐经验很难沉淀为组织能力。
- Title: 训练:偏好数据与对齐失效
- Author: Charles
- Created at : 2026-03-16 09:00:00
- Updated at : 2026-03-16 09:00:00
- Link: https://charles2530.github.io/2026/03/16/ai-files-training-preference-data-and-alignment-pitfalls/
- License: This work is licensed under CC BY-NC-SA 4.0.