训练:数据质量、去重与治理
大模型训练里最贵的资源往往不是显卡,而是高质量数据。训练数据不是“越多越好”的简单堆积;重复、污染、版权风险、低信息密度、标签漂移和分布失衡,都会让看似庞大的语料库变成效率低下甚至带偏模型的负担。数据质量、去重与治理,是现代训练系统中最容易被低估、但对最终能力和合规性影响极大的部分。
数据治理不是训练前的清洁工作,而是在定义模型会长期模仿什么世界。脏数据像错误教材,重复数据像只刷同一道题,污染数据像考试前偷看答案;它们都会让 loss 看起来下降,却让真实能力变差。
如果一盒单词卡里有 40% 是同一个单词,孩子会很快“学会”这盒卡片,但词汇量并没有真的扩大。训练语料也是这样:表面 token 很多,不代表有效信息很多。
1. 为什么数据治理是模型能力的一部分
设训练目标近似为
模型最终学到的,本质上是训练分布 的统计结构。如果这个分布被重复样本、低质样本或偏置样本扭曲,那么优化再漂亮,也只是在更认真地学习错误分布。
从工程角度说,数据治理至少影响样本效率、泛化能力、评测可信度和合规风险:同样算力下能学到多少真实信息,模型是否过拟合常见模板和高频噪声,训练集污染是否导致虚高分数,以及版权、隐私和敏感信息问题是否可控。
2. 数据质量的几个维度
2.1 正确性
样本内容是否事实正确、标注是否一致、字段是否错位。错误标签会直接把优化方向带偏。
2.2 信息密度
一段文本、一个图文对、一段轨迹是否包含足够学习价值。模板化、灌水、重复表述会降低单位 token 的信息密度。
2.3 多样性
数据是否覆盖不同主题、风格、设备、场景、语言和难度。过度集中会造成模型能力塌缩在少数常见模式上。
2.4 任务相关性
并非所有高质量数据都对某任务有用。训练一个文档理解 VLM,加入过多自然图像 caption 数据未必高效;训练仓库机器人,加入大量游戏场景轨迹帮助有限。
2.5 风险属性
包括隐私、版权、涉敏信息、有害内容和法律边界。治理不仅是提高效果,也是降低不可接受风险。
3. 去重为什么关键
重复样本会带来至少三种问题:
- 降低信息效率:你花更多算力学习同样内容。
- 放大偏置:某些模板或风格因重复而被过度强调。
- 污染评测:训练与验证或 benchmark 重叠,导致虚高。
一个简单近似是:若有效独立样本数为 ,总样本数为 ,重复率为 ,则
虽然现实更复杂,但它足以说明重复率高时,表面数据量和真实信息量相差甚远。
4. 文本去重方法
4.1 精确去重
最简单的是 hash 完整文档或规范化文本。对完全相同内容有效,但对轻微改写、换行差异、模板字段变化无能为力。
4.2 n-gram / shingle 去重
把文本切成 shingles,比较 Jaccard 相似度:
若 超过阈值,就可视为近重复。为提升效率,常用 MinHash 和 LSH 做近似近邻查找。
4.3 语义去重
对标题改写、段落重述、多语言翻译等近重复,词面相似度不够,需要 embedding 去重。可把文本编码成向量后,用 ANN 搜索相近样本,再结合规则或分类器判定是否冗余。
语义去重更强,但也更危险:如果阈值设置过高,容易把“相关但不重复”的高价值样本误删,损害多样性。
5. 图像与多模态去重
图像去重可用感知哈希、局部特征和视觉 embedding。对多模态图文数据,还需考虑图像重复但 caption 不同、文本重复但图像不同、图像略改裁剪、加水印或分辨率变化等情况。
例如电商数据里,同一商品主图可能有不同背景、不同水印版本;如果都保留,模型会高估某些商品风格。
6. 视频与机器人轨迹去重
时序数据的去重更复杂。两段轨迹即使对象和任务相同,只要时间偏移、速度不同,也可能看似不同但信息冗余。常见方法是对关键帧或摘要状态做哈希 / embedding,比较动作序列模式,并根据任务标签、对象 ID、环境 ID 聚类。
对机器人示范数据而言,十段几乎同样的“从固定位置抓杯子”轨迹,并不能带来十倍信息量。
7. 去重阈值怎么定
去重不是阈值越严越好。设样本对相似度为 ,阈值为 ,则保留规则可写为
若 太低,数据多样性会被误伤;若太高,重复抑制不足。最佳阈值依赖任务:通用预训练可适度保留相近语义的不同表述,benchmark 污染防控要更保守,企业知识库则可能必须保留同一政策文件的不同版本。
8. 数据质量评分
成熟系统通常不会只做“删或不删”,而会为样本打分。设样本质量分为
其中可以包含清洗置信度、信息密度、与目标任务的相关性和风险等级。
训练时可按 重采样,而不是简单过滤。
9. 数据混合与配比
即使每个来源都高质量,混合方式也会决定模型偏向。若来源集合为 ,采样权重为 ,则训练分布为
问题在于: 不是自然给定的,而是策略变量。对多模态模型尤其如此。文本、图像、视频、交互轨迹各占多少?通用数据和垂直数据如何混?高质量小数据是否需要过采样?这些都属于治理范畴。
10. 数据污染问题
数据污染通常指训练数据与评测数据存在显式或隐式重叠。它会让 benchmark 分数失真,常见形态包括完全重复、近重复改写、同题不同解格式、图像轻微编辑和多语言翻译版本。
治理时要建立 benchmark 黑名单集,做专门的去重与近似匹配,而不是只在全量预训练数据里随便扫一遍。
11. 数据治理的组织问题
数据治理不是一次性脚本,而是持续流程。一个成熟团队通常需要数据清单与版本化、来源许可证记录、采样和清洗策略留痕、删除请求与追溯机制,以及 benchmark 隔离规则。
也就是说,治理既是技术问题,也是组织管理问题。
12. 合规与隐私
随着模型越来越强,训练数据中的个人信息、商业敏感信息和版权文本更容易在生成中被复现。治理至少要考虑 PII 检测与脱敏、受限数据隔离、来源协议记录,以及删除后的再训练或增量修复策略。
如果训练数据管线无法回答“这条样本来自哪里、为什么保留、是否能删除”,那它在合规上通常是不成熟的。
13. 质量治理的工程流水线
一个现实可行的数据治理流水线通常从采集与标准化开始,接着做基础清洗、去重、风险扫描、质量评分和采样混合,最后进行版本冻结与留档。每一步都应产出统计报表,否则后续很难解释模型为何变化。
14. 两个生动例子
14.1 企业文档助手
某团队把历史内部文档、FAQ、会议纪要全部喂给模型,结果模型总是引用过期政策。排查后发现:老版本文档重复次数远多于新版本,去重只做了文件 hash,没有处理“改了日期但正文几乎一样”的版本,训练时也按文件数采样,而不是按生效版本采样。
问题不在模型架构,而在数据治理。
14.2 机器人抓取数据
另一团队收集了大量“成功抓取杯子”的示范数据,看起来量很大,但 70% 轨迹来自固定机位、固定桌布、固定杯子位置。模型上线后换一个台面颜色就退化明显。这里不是数据量不够,而是重复和分布窄共同放大了背景偏置。
15. 治理中的常见误区
15.1 只追求更多,不追求更干净
当数据量已经很大时,再堆低质量重复样本的边际收益通常极低。
15.2 只做词面去重
对现代大模型来说,语义近重复和模板化变体同样会造成污染。
15.3 只删不打分
很多样本不是非黑即白,而是“低收益但不必完全删除”。打分和重采样往往比硬过滤更稳。
15.4 没有版本和审计
模型表现变了,却不知道哪批数据进来了、哪套规则改了,这会让问题排查非常困难。
16. 小结
数据质量、去重与治理并不是训练前的清洁工,而是塑造模型能力边界的核心过程。去重提升信息效率,质量评分提升样本利用率,治理流程保证可追溯与合规。模型规模越大,算力越贵,这些工作越不是“锦上添花”,而是决定结果是否可信、是否可持续的基础设施。
工程收束
数据治理不是训练前的一次性清洗,而是 lineage、去重粒度、污染审计、许可风险和版本化组成的平台能力。成熟治理至少要把污染审计常态化,分开治理训练浪费与 benchmark 泄漏,并对数据快照、清洗配置、失败案例、回滚条件和下游接口做版本化。
- Title: 训练:数据质量、去重与治理
- Author: Charles
- Created at : 2026-02-18 09:00:00
- Updated at : 2026-02-18 09:00:00
- Link: https://charles2530.github.io/2026/02/18/ai-files-training-data-quality-dedup-and-governance/
- License: This work is licensed under CC BY-NC-SA 4.0.