训练:数据质量、去重与治理

训练:数据质量、去重与治理

Charles Lv7

大模型训练里最贵的资源往往不是显卡,而是高质量数据。训练数据不是“越多越好”的简单堆积;重复、污染、版权风险、低信息密度、标签漂移和分布失衡,都会让看似庞大的语料库变成效率低下甚至带偏模型的负担。数据质量、去重与治理,是现代训练系统中最容易被低估、但对最终能力和合规性影响极大的部分。

初学者先抓住

数据治理不是训练前的清洁工作,而是在定义模型会长期模仿什么世界。脏数据像错误教材,重复数据像只刷同一道题,污染数据像考试前偷看答案;它们都会让 loss 看起来下降,却让真实能力变差。

有趣例子:背单词卡片

如果一盒单词卡里有 40% 是同一个单词,孩子会很快“学会”这盒卡片,但词汇量并没有真的扩大。训练语料也是这样:表面 token 很多,不代表有效信息很多。

1. 为什么数据治理是模型能力的一部分

设训练目标近似为

minθ  Exptrain[L(x;θ)].\min_\theta \; \mathbb{E}_{x \sim p_{\text{train}}}[\mathcal{L}(x; \theta)].

模型最终学到的,本质上是训练分布 ptrainp_{\text{train}} 的统计结构。如果这个分布被重复样本、低质样本或偏置样本扭曲,那么优化再漂亮,也只是在更认真地学习错误分布。

从工程角度说,数据治理至少影响样本效率、泛化能力、评测可信度和合规风险:同样算力下能学到多少真实信息,模型是否过拟合常见模板和高频噪声,训练集污染是否导致虚高分数,以及版权、隐私和敏感信息问题是否可控。

2. 数据质量的几个维度

2.1 正确性

样本内容是否事实正确、标注是否一致、字段是否错位。错误标签会直接把优化方向带偏。

2.2 信息密度

一段文本、一个图文对、一段轨迹是否包含足够学习价值。模板化、灌水、重复表述会降低单位 token 的信息密度。

2.3 多样性

数据是否覆盖不同主题、风格、设备、场景、语言和难度。过度集中会造成模型能力塌缩在少数常见模式上。

2.4 任务相关性

并非所有高质量数据都对某任务有用。训练一个文档理解 VLM,加入过多自然图像 caption 数据未必高效;训练仓库机器人,加入大量游戏场景轨迹帮助有限。

2.5 风险属性

包括隐私、版权、涉敏信息、有害内容和法律边界。治理不仅是提高效果,也是降低不可接受风险。

3. 去重为什么关键

重复样本会带来至少三种问题

  1. 降低信息效率:你花更多算力学习同样内容。
  2. 放大偏置:某些模板或风格因重复而被过度强调。
  3. 污染评测:训练与验证或 benchmark 重叠,导致虚高。

一个简单近似是:若有效独立样本数为 NeffN_{\text{eff}},总样本数为 NN,重复率为 ρ\rho,则

NeffN(1ρ),N_{\text{eff}} \approx N(1-\rho),

虽然现实更复杂,但它足以说明重复率高时,表面数据量和真实信息量相差甚远。

4. 文本去重方法

4.1 精确去重

最简单的是 hash 完整文档或规范化文本。对完全相同内容有效,但对轻微改写、换行差异、模板字段变化无能为力。

4.2 n-gram / shingle 去重

把文本切成 shingles,比较 Jaccard 相似度:

J(A,B)=ABAB.J(A, B) = \frac{|A \cap B|}{|A \cup B|}.

J(A,B)J(A,B) 超过阈值,就可视为近重复。为提升效率,常用 MinHash 和 LSH 做近似近邻查找。

4.3 语义去重

对标题改写、段落重述、多语言翻译等近重复,词面相似度不够,需要 embedding 去重。可把文本编码成向量后,用 ANN 搜索相近样本,再结合规则或分类器判定是否冗余。

语义去重更强,但也更危险:如果阈值设置过高,容易把“相关但不重复”的高价值样本误删,损害多样性。

5. 图像与多模态去重

图像去重可用感知哈希、局部特征和视觉 embedding。对多模态图文数据,还需考虑图像重复但 caption 不同、文本重复但图像不同、图像略改裁剪、加水印或分辨率变化等情况。

例如电商数据里,同一商品主图可能有不同背景、不同水印版本;如果都保留,模型会高估某些商品风格。

6. 视频与机器人轨迹去重

时序数据的去重更复杂。两段轨迹即使对象和任务相同,只要时间偏移、速度不同,也可能看似不同但信息冗余。常见方法是对关键帧或摘要状态做哈希 / embedding,比较动作序列模式,并根据任务标签、对象 ID、环境 ID 聚类。

对机器人示范数据而言,十段几乎同样的“从固定位置抓杯子”轨迹,并不能带来十倍信息量。

7. 去重阈值怎么定

去重不是阈值越严越好。设样本对相似度为 s(xi,xj)s(x_i, x_j),阈值为 γ\gamma,则保留规则可写为

keep(xj)=1[maxi<js(xi,xj)<γ].\text{keep}(x_j)= \mathbf{1}\left[\max_{i<j}s(x_i, x_j) < \gamma \right].

γ\gamma 太低,数据多样性会被误伤;若太高,重复抑制不足。最佳阈值依赖任务:通用预训练可适度保留相近语义的不同表述,benchmark 污染防控要更保守,企业知识库则可能必须保留同一政策文件的不同版本。

8. 数据质量评分

成熟系统通常不会只做“删或不删”,而会为样本打分。设样本质量分为

q(x)=α1qclean+α2qinfo+α3qtaskα4qrisk.q(x)= \alpha_1 q_{\text{clean}} + \alpha_2 q_{\text{info}} + \alpha_3 q_{\text{task}} - \alpha_4 q_{\text{risk}}.

其中可以包含清洗置信度、信息密度、与目标任务的相关性和风险等级。

训练时可按 q(x)q(x) 重采样,而不是简单过滤。

9. 数据混合与配比

即使每个来源都高质量,混合方式也会决定模型偏向。若来源集合为 {Dk}\{D_k\},采样权重为 πk\pi_k,则训练分布为

ptrain(x)=kπkpk(x).p_{\text{train}}(x)=\sum_k \pi_k p_k(x).

问题在于:πk\pi_k 不是自然给定的,而是策略变量。对多模态模型尤其如此。文本、图像、视频、交互轨迹各占多少?通用数据和垂直数据如何混?高质量小数据是否需要过采样?这些都属于治理范畴。

10. 数据污染问题

数据污染通常指训练数据与评测数据存在显式或隐式重叠。它会让 benchmark 分数失真,常见形态包括完全重复、近重复改写、同题不同解格式、图像轻微编辑和多语言翻译版本。

治理时要建立 benchmark 黑名单集,做专门的去重与近似匹配,而不是只在全量预训练数据里随便扫一遍。

11. 数据治理的组织问题

数据治理不是一次性脚本,而是持续流程。一个成熟团队通常需要数据清单与版本化、来源许可证记录、采样和清洗策略留痕、删除请求与追溯机制,以及 benchmark 隔离规则。

也就是说,治理既是技术问题,也是组织管理问题。

12. 合规与隐私

随着模型越来越强,训练数据中的个人信息、商业敏感信息和版权文本更容易在生成中被复现。治理至少要考虑 PII 检测与脱敏、受限数据隔离、来源协议记录,以及删除后的再训练或增量修复策略。

如果训练数据管线无法回答“这条样本来自哪里、为什么保留、是否能删除”,那它在合规上通常是不成熟的。

13. 质量治理的工程流水线

一个现实可行的数据治理流水线通常从采集与标准化开始,接着做基础清洗、去重、风险扫描、质量评分和采样混合,最后进行版本冻结与留档。每一步都应产出统计报表,否则后续很难解释模型为何变化。

14. 两个生动例子

14.1 企业文档助手

某团队把历史内部文档、FAQ、会议纪要全部喂给模型,结果模型总是引用过期政策。排查后发现:老版本文档重复次数远多于新版本,去重只做了文件 hash,没有处理“改了日期但正文几乎一样”的版本,训练时也按文件数采样,而不是按生效版本采样。

问题不在模型架构,而在数据治理。

14.2 机器人抓取数据

另一团队收集了大量“成功抓取杯子”的示范数据,看起来量很大,但 70% 轨迹来自固定机位、固定桌布、固定杯子位置。模型上线后换一个台面颜色就退化明显。这里不是数据量不够,而是重复和分布窄共同放大了背景偏置。

15. 治理中的常见误区

15.1 只追求更多,不追求更干净

当数据量已经很大时,再堆低质量重复样本的边际收益通常极低。

15.2 只做词面去重

对现代大模型来说,语义近重复和模板化变体同样会造成污染。

15.3 只删不打分

很多样本不是非黑即白,而是“低收益但不必完全删除”。打分和重采样往往比硬过滤更稳。

15.4 没有版本和审计

模型表现变了,却不知道哪批数据进来了、哪套规则改了,这会让问题排查非常困难。

16. 小结

数据质量、去重与治理并不是训练前的清洁工,而是塑造模型能力边界的核心过程。去重提升信息效率,质量评分提升样本利用率,治理流程保证可追溯与合规。模型规模越大,算力越贵,这些工作越不是“锦上添花”,而是决定结果是否可信、是否可持续的基础设施。

工程收束

数据治理不是训练前的一次性清洗,而是 lineage、去重粒度、污染审计、许可风险和版本化组成的平台能力。成熟治理至少要把污染审计常态化,分开治理训练浪费与 benchmark 泄漏,并对数据快照、清洗配置、失败案例、回滚条件和下游接口做版本化。

  • Title: 训练:数据质量、去重与治理
  • Author: Charles
  • Created at : 2026-02-18 09:00:00
  • Updated at : 2026-02-18 09:00:00
  • Link: https://charles2530.github.io/2026/02/18/ai-files-training-data-quality-dedup-and-governance/
  • License: This work is licensed under CC BY-NC-SA 4.0.
Comments