训练:数据质量、去重与治理
大模型训练里最贵的资源往往不是显卡,而是高质量数据。训练数据不是“越多越好”的简单堆积;重复、污染、版权风险、低信息密度、标签漂移和分布失衡,都会让看似庞大的语料库变成效率低下甚至带偏模型的负担。数据质量、去重与治理,是现代训练系统中最容易被低估、但对最终能力和合规性影响极大的部分。
这页先回答“数据质量、去重与治理”在「训练」里的位置:它解决什么局部问题,依赖哪些前置,最后会影响哪类工程或研究判断。
前置:先知道 loss、optimizer、batch、checkpoint 和评测集的基本含义。 必要时先回 训练入口、基础知识 或 术语表。
主线关系:把目标函数、数据、分布式系统、评测回流和实验治理串起来,看一次训练为什么成功、为什么不稳、为什么贵。
数据治理不是训练前的清洁工作,而是在定义模型会长期模仿什么世界。脏数据像错误教材,重复数据像只刷同一道题,污染数据像考试前偷看答案;它们都会让 loss 看起来下降,却让真实能力变差。
如果一盒单词卡里有 40% 是同一个单词,孩子会很快“学会”这盒卡片,但词汇量并没有真的扩大。训练语料也是这样:表面 token 很多,不代表有效信息很多。
为什么数据治理是模型能力的一部分
设训练目标近似为
模型最终学到的,本质上是训练分布 的统计结构。如果这个分布被重复样本、低质样本或偏置样本扭曲,那么优化再漂亮,也只是在更认真地学习错误分布。
从工程角度说,数据治理至少影响样本效率、泛化能力、评测可信度和合规风险:同样算力下能学到多少真实信息,模型是否过拟合常见模板和高频噪声,训练集污染是否导致虚高分数,以及版权、隐私和敏感信息问题是否可控。
数据质量的几个维度
2.1 正确性
样本内容是否事实正确、标注是否一致、字段是否错位。错误标签会直接把优化方向带偏。
2.2 信息密度
一段文本、一个图文对、一段轨迹是否包含足够学习价值。模板化、灌水、重复表述会降低单位 token 的信息密度。
2.3 多样性
数据是否覆盖不同主题、风格、设备、场景、语言和难度。过度集中会造成模型能力塌缩在少数常见模式上。
2.4 任务相关性
并非所有高质量数据都对某任务有用。训练一个文档理解 VLM,加入过多自然图像 caption 数据未必高效;训练仓库机器人,加入大量游戏场景轨迹帮助有限。
2.5 风险属性
包括隐私、版权、涉敏信息、有害内容和法律边界。治理不仅是提高效果,也是降低不可接受风险。
去重为什么关键
重复样本会带来至少三种问题:
- 降低信息效率:你花更多算力学习同样内容。
- 放大偏置:某些模板或风格因重复而被过度强调。
- 污染评测:训练与验证或 benchmark 重叠,导致虚高。
一个简单近似是:若有效独立样本数为 ,总样本数为 ,重复率为 ,则
虽然现实更复杂,但它足以说明重复率高时,表面数据量和真实信息量相差甚远。
文本去重方法
4.1 精确去重
最简单的是 hash 完整文档或规范化文本。对完全相同内容有效,但对轻微改写、换行差异、模板字段变化无能为力。
4.2 n-gram / shingle 去重
把文本切成 shingles,比较 Jaccard 相似度:
若 超过阈值,就可视为近重复。为提升效率,常用 MinHash 和 LSH 做近似近邻查找。
4.3 语义去重
对标题改写、段落重述、多语言翻译等近重复,词面相似度不够,需要 embedding 去重。可把文本编码成向量后,用 ANN 搜索相近样本,再结合规则或分类器判定是否冗余。
语义去重更强,但也更危险:如果阈值设置过高,容易把“相关但不重复”的高价值样本误删,损害多样性。
图像与多模态去重
图像去重可用感知哈希、局部特征和视觉 embedding。对多模态图文数据,还需考虑图像重复但 caption 不同、文本重复但图像不同、图像略改裁剪、加水印或分辨率变化等情况。
例如电商数据里,同一商品主图可能有不同背景、不同水印版本;如果都保留,模型会高估某些商品风格。
视频与机器人轨迹去重
时序数据的去重更复杂。两段轨迹即使对象和任务相同,只要时间偏移、速度不同,也可能看似不同但信息冗余。常见方法是对关键帧或摘要状态做哈希 / embedding,比较动作序列模式,并根据任务标签、对象 ID、环境 ID 聚类。
对机器人示范数据而言,十段几乎同样的“从固定位置抓杯子”轨迹,并不能带来十倍信息量。
去重阈值怎么定
去重不是阈值越严越好。设样本对相似度为 ,阈值为 ,则保留规则可写为
若 太低,数据多样性会被误伤;若太高,重复抑制不足。最佳阈值依赖任务:通用预训练可适度保留相近语义的不同表述,benchmark 污染防控要更保守,企业知识库则可能必须保留同一政策文件的不同版本。
数据质量评分
成熟系统通常不会只做“删或不删”,而会为样本打分。设样本质量分为
其中可以包含清洗置信度、信息密度、与目标任务的相关性和风险等级。
训练时可按 重采样,而不是简单过滤。
数据混合与配比
即使每个来源都高质量,混合方式也会决定模型偏向。若来源集合为 ,采样权重为 ,则训练分布为
问题在于: 不是自然给定的,而是策略变量。对多模态模型尤其如此。文本、图像、视频、交互轨迹各占多少?通用数据和垂直数据如何混?高质量小数据是否需要过采样?这些都属于治理范畴。
数据污染问题
数据污染通常指训练数据与评测数据存在显式或隐式重叠。它会让 benchmark 分数失真,常见形态包括完全重复、近重复改写、同题不同解格式、图像轻微编辑和多语言翻译版本。
治理时要建立 benchmark 黑名单集,做专门的去重与近似匹配,而不是只在全量预训练数据里随便扫一遍。
数据治理的组织问题
数据治理不是一次性脚本,而是持续流程。一个成熟团队通常需要数据清单与版本化、来源许可证记录、采样和清洗策略留痕、删除请求与追溯机制,以及 benchmark 隔离规则。
也就是说,治理既是技术问题,也是组织管理问题。
合规与隐私
随着模型越来越强,训练数据中的个人信息、商业敏感信息和版权文本更容易在生成中被复现。治理至少要考虑 PII 检测与脱敏、受限数据隔离、来源协议记录,以及删除后的再训练或增量修复策略。
如果训练数据管线无法回答“这条样本来自哪里、为什么保留、是否能删除”,那它在合规上通常是不成熟的。
质量治理的工程流水线
一个现实可行的数据治理流水线通常从采集与标准化开始,接着做基础清洗、去重、风险扫描、质量评分和采样混合,最后进行版本冻结与留档。每一步都应产出统计报表,否则后续很难解释模型为何变化。
13.1 具体场景:VLA 轨迹数据怎么过治理
假设要把一批家庭机器人轨迹加入 VLA / 世界模型联合训练,单条样本可以先标准化成:
1 | { |
治理流水线不是简单保留 success=true 的轨迹,而是给每条样本产出一张审计卡:
| 检查 | 通过规则 | 失败处理 |
|---|---|---|
| 时间同步 | 多相机和动作最大偏移 <50ms |
超过阈值只进排障集,不进动作监督 |
| 轨迹去重 | 同任务、同场景、同对象、动作 DTW 相似度不过高 | 聚类后每簇限额采样 |
| 动作合法性 | 速度、加速度、夹爪状态不越界 | 越界片段标成 unsafe,不训练模仿 |
| 任务标签 | success checker、人工标注、最终状态三者一致 | 标签冲突进人审 |
| 风险与合规 | 无人脸、隐私物品、受限场景 | 脱敏或隔离,不进通用数据池 |
质量分可以不是玄学,而是写成可解释字段:
| 分项 | 例子 | 作用 |
|---|---|---|
q_sync |
1.0 |
时间同步越好,动作监督越可信 |
q_task |
0.8 |
是否覆盖目标任务和长尾对象 |
q_diversity |
0.4 |
是否和已有轨迹重复 |
q_risk |
0.2 |
隐私、越界、标注冲突等风险惩罚 |
最终可能出现三种决策:
| 决策 | 样本例子 | 进入哪里 |
|---|---|---|
| 保留并上采样 | 罕见厨房布局、成功但有轻微恢复动作 | 长尾任务训练与评测桶 |
| 保留但降权 | 固定厨房、固定盘子、重复成功轨迹 | 主分布稳定性数据 |
| 拒绝或隔离 | 时间戳漂移、动作越界、隐私未脱敏 | 排障、人审或合规隔离 |
治理后的效果也要能验收。比如一次数据快照从 2.1M 条轨迹过滤到 1.35M 条,不应只说“数据更干净”,而要报告:重复轨迹占比从 38% 降到 11%,时间同步异常从 7.4% 降到 1.2%,目标长尾任务 bucket 的成功率提升 4.6%,主分布成功率不下降,评测污染近邻为 0。这些数字才让数据治理从理念变成训练决策。
直觉例子
14.1 企业文档助手
某团队把历史内部文档、FAQ、会议纪要全部喂给模型,结果模型总是引用过期政策。排查后发现:老版本文档重复次数远多于新版本,去重只做了文件 hash,没有处理“改了日期但正文几乎一样”的版本,训练时也按文件数采样,而不是按生效版本采样。
问题不在模型架构,而在数据治理。
14.2 机器人抓取数据
另一团队收集了大量“成功抓取杯子”的示范数据,看起来量很大,但 70% 轨迹来自固定机位、固定桌布、固定杯子位置。模型上线后换一个台面颜色就退化明显。这里不是数据量不够,而是重复和分布窄共同放大了背景偏置。
治理中的常见误区
15.1 只追求更多,不追求更干净
当数据量已经很大时,再堆低质量重复样本的边际收益通常极低。
15.2 只做词面去重
对现代大模型来说,语义近重复和模板化变体同样会造成污染。
15.3 只删不打分
很多样本不是非黑即白,而是“低收益但不必完全删除”。打分和重采样往往比硬过滤更稳。
15.4 没有版本和审计
模型表现变了,却不知道哪批数据进来了、哪套规则改了,这会让问题排查非常困难。
本页结论
数据质量、去重与治理并不是训练前的清洁工,而是塑造模型能力边界的核心过程。去重提升信息效率,质量评分提升样本利用率,治理流程保证可追溯与合规。模型规模越大,算力越贵,这些工作越不是“锦上添花”,而是决定结果是否可信、是否可持续的基础设施。
工程收束
数据治理不是训练前的一次性清洗,而是 lineage、去重粒度、污染审计、许可风险和版本化组成的平台能力。成熟治理至少要把污染审计常态化,分开治理训练浪费与 benchmark 泄漏,并对数据快照、清洗配置、失败案例、回滚条件和下游接口做版本化。
- 回到本专题入口:训练,确认这页在整条路线中的位置。
- 按导航顺序继续:Scaling、课程学习与数据配比。
- 概念或符号卡住时,先查 术语表,再回到当前页。
- Title: 训练:数据质量、去重与治理
- Author: Charles
- Created at : 2026-02-02 09:00:00
- Updated at : 2026-02-02 09:00:00
- Link: https://charles2530.github.io/2026/02/02/ai-files-training-data-quality-dedup-and-governance/
- License: This work is licensed under CC BY-NC-SA 4.0.