训练：数据质量、去重与治理

大模型训练里最贵的资源往往不是显卡，而是高质量数据。训练数据不是“越多越好”的简单堆积；重复、污染、版权风险、低信息密度、标签漂移和分布失衡，都会让看似庞大的语料库变成效率低下甚至带偏模型的负担。数据质量、去重与治理，是现代训练系统中最容易被低估、但对最终能力和合规性影响极大的部分。

读法定位

这页先回答“数据质量、去重与治理”在「训练」里的位置：它解决什么局部问题，依赖哪些前置，最后会影响哪类工程或研究判断。
前置：先知道 loss、optimizer、batch、checkpoint 和评测集的基本含义。必要时先回训练入口、基础知识或术语表。
主线关系：把目标函数、数据、分布式系统、评测回流和实验治理串起来，看一次训练为什么成功、为什么不稳、为什么贵。

初学者先抓住

数据治理不是训练前的清洁工作，而是在定义模型会长期模仿什么世界。脏数据像错误教材，重复数据像只刷同一道题，污染数据像考试前偷看答案；它们都会让 loss 看起来下降，却让真实能力变差。

有趣例子：背单词卡片

如果一盒单词卡里有 40% 是同一个单词，孩子会很快“学会”这盒卡片，但词汇量并没有真的扩大。训练语料也是这样：表面 token 很多，不代表有效信息很多。

为什么数据治理是模型能力的一部分

设训练目标近似为

$\min_\theta \; \mathbb{E}_{x \sim p_{\text{train}}}[\mathcal{L}(x; \theta)].$

模型最终学到的，本质上是训练分布 $p_{\text{train}}$ 的统计结构。如果这个分布被重复样本、低质样本或偏置样本扭曲，那么优化再漂亮，也只是在更认真地学习错误分布。

从工程角度说，数据治理至少影响样本效率、泛化能力、评测可信度和合规风险：同样算力下能学到多少真实信息，模型是否过拟合常见模板和高频噪声，训练集污染是否导致虚高分数，以及版权、隐私和敏感信息问题是否可控。

数据质量的几个维度

2.1 正确性

样本内容是否事实正确、标注是否一致、字段是否错位。错误标签会直接把优化方向带偏。

2.2 信息密度

一段文本、一个图文对、一段轨迹是否包含足够学习价值。模板化、灌水、重复表述会降低单位 token 的信息密度。

2.3 多样性

数据是否覆盖不同主题、风格、设备、场景、语言和难度。过度集中会造成模型能力塌缩在少数常见模式上。

2.4 任务相关性

并非所有高质量数据都对某任务有用。训练一个文档理解 VLM，加入过多自然图像 caption 数据未必高效；训练仓库机器人，加入大量游戏场景轨迹帮助有限。

2.5 风险属性

包括隐私、版权、涉敏信息、有害内容和法律边界。治理不仅是提高效果，也是降低不可接受风险。

去重为什么关键

重复样本会带来至少三种问题：

降低信息效率：你花更多算力学习同样内容。
放大偏置：某些模板或风格因重复而被过度强调。
污染评测：训练与验证或 benchmark 重叠，导致虚高。

一个简单近似是：若有效独立样本数为 $N_{\text{eff}}$ ，总样本数为 $N$ ，重复率为 $\rho$ ，则

$N_{\text{eff}} \approx N(1-\rho),$

虽然现实更复杂，但它足以说明重复率高时，表面数据量和真实信息量相差甚远。

文本去重方法

4.1 精确去重

最简单的是 hash 完整文档或规范化文本。对完全相同内容有效，但对轻微改写、换行差异、模板字段变化无能为力。

4.2 n-gram / shingle 去重

把文本切成 shingles，比较 Jaccard 相似度：

$J(A, B) = \frac{|A \cap B|}{|A \cup B|}.$

若 $J(A,B)$ 超过阈值，就可视为近重复。为提升效率，常用 MinHash 和 LSH 做近似近邻查找。

4.3 语义去重

对标题改写、段落重述、多语言翻译等近重复，词面相似度不够，需要 embedding 去重。可把文本编码成向量后，用 ANN 搜索相近样本，再结合规则或分类器判定是否冗余。

语义去重更强，但也更危险：如果阈值设置过高，容易把“相关但不重复”的高价值样本误删，损害多样性。

图像与多模态去重

图像去重可用感知哈希、局部特征和视觉 embedding。对多模态图文数据，还需考虑图像重复但 caption 不同、文本重复但图像不同、图像略改裁剪、加水印或分辨率变化等情况。

例如电商数据里，同一商品主图可能有不同背景、不同水印版本；如果都保留，模型会高估某些商品风格。

视频与机器人轨迹去重

时序数据的去重更复杂。两段轨迹即使对象和任务相同，只要时间偏移、速度不同，也可能看似不同但信息冗余。常见方法是对关键帧或摘要状态做哈希 / embedding，比较动作序列模式，并根据任务标签、对象 ID、环境 ID 聚类。

对机器人示范数据而言，十段几乎同样的“从固定位置抓杯子”轨迹，并不能带来十倍信息量。

去重阈值怎么定

去重不是阈值越严越好。设样本对相似度为 $s(x_i, x_j)$ ，阈值为 $\gamma$ ，则保留规则可写为

$\text{keep}(x_j)= \mathbf{1}\left[\max_{i<j}s(x_i, x_j) < \gamma \right].$

若 $\gamma$ 太低，数据多样性会被误伤；若太高，重复抑制不足。最佳阈值依赖任务：通用预训练可适度保留相近语义的不同表述，benchmark 污染防控要更保守，企业知识库则可能必须保留同一政策文件的不同版本。

数据质量评分

成熟系统通常不会只做“删或不删”，而会为样本打分。设样本质量分为

$q(x)= \alpha_1 q_{\text{clean}} + \alpha_2 q_{\text{info}} + \alpha_3 q_{\text{task}} - \alpha_4 q_{\text{risk}}.$

其中可以包含清洗置信度、信息密度、与目标任务的相关性和风险等级。

训练时可按 $q(x)$ 重采样，而不是简单过滤。

数据混合与配比

即使每个来源都高质量，混合方式也会决定模型偏向。若来源集合为 $\{D_k\}$ ，采样权重为 $\pi_k$ ，则训练分布为

$p_{\text{train}}(x)=\sum_k \pi_k p_k(x).$

问题在于： $\pi_k$ 不是自然给定的，而是策略变量。对多模态模型尤其如此。文本、图像、视频、交互轨迹各占多少？通用数据和垂直数据如何混？高质量小数据是否需要过采样？这些都属于治理范畴。

数据污染问题

数据污染通常指训练数据与评测数据存在显式或隐式重叠。它会让 benchmark 分数失真，常见形态包括完全重复、近重复改写、同题不同解格式、图像轻微编辑和多语言翻译版本。

治理时要建立 benchmark 黑名单集，做专门的去重与近似匹配，而不是只在全量预训练数据里随便扫一遍。

数据治理的组织问题

数据治理不是一次性脚本，而是持续流程。一个成熟团队通常需要数据清单与版本化、来源许可证记录、采样和清洗策略留痕、删除请求与追溯机制，以及 benchmark 隔离规则。

也就是说，治理既是技术问题，也是组织管理问题。

合规与隐私

随着模型越来越强，训练数据中的个人信息、商业敏感信息和版权文本更容易在生成中被复现。治理至少要考虑 PII 检测与脱敏、受限数据隔离、来源协议记录，以及删除后的再训练或增量修复策略。

如果训练数据管线无法回答“这条样本来自哪里、为什么保留、是否能删除”，那它在合规上通常是不成熟的。

质量治理的工程流水线

一个现实可行的数据治理流水线通常从采集与标准化开始，接着做基础清洗、去重、风险扫描、质量评分和采样混合，最后进行版本冻结与留档。每一步都应产出统计报表，否则后续很难解释模型为何变化。

13.1 具体场景：VLA 轨迹数据怎么过治理

假设要把一批家庭机器人轨迹加入 VLA / 世界模型联合训练，单条样本可以先标准化成：

{
  "episode_id": "home_clean_000732",
  "robot": "mobile_manipulator_v2",
  "task": "put_plate_into_sink",
  "success": true,
  "duration_s": 42.5,
  "cameras": ["front", "left_wrist", "right_wrist", "base"],
  "camera_sync_max_ms": 23,
  "action_space": "eef_delta_pose_gripper",
  "action_hz": 20,
  "human_intervention": false,
  "scene_hash": "kitchen_A_counter_17",
  "license": "internal_robotics_demo_v3"
}

治理流水线不是简单保留 success=true 的轨迹，而是给每条样本产出一张审计卡：

检查	通过规则	失败处理
时间同步	多相机和动作最大偏移 `<50ms`	超过阈值只进排障集，不进动作监督
轨迹去重	同任务、同场景、同对象、动作 DTW 相似度不过高	聚类后每簇限额采样
动作合法性	速度、加速度、夹爪状态不越界	越界片段标成 unsafe，不训练模仿
任务标签	success checker、人工标注、最终状态三者一致	标签冲突进人审
风险与合规	无人脸、隐私物品、受限场景	脱敏或隔离，不进通用数据池

质量分可以不是玄学，而是写成可解释字段：

分项	例子	作用
`q_sync`	`1.0`	时间同步越好，动作监督越可信
`q_task`	`0.8`	是否覆盖目标任务和长尾对象
`q_diversity`	`0.4`	是否和已有轨迹重复
`q_risk`	`0.2`	隐私、越界、标注冲突等风险惩罚

最终可能出现三种决策：

决策	样本例子	进入哪里
保留并上采样	罕见厨房布局、成功但有轻微恢复动作	长尾任务训练与评测桶
保留但降权	固定厨房、固定盘子、重复成功轨迹	主分布稳定性数据
拒绝或隔离	时间戳漂移、动作越界、隐私未脱敏	排障、人审或合规隔离

治理后的效果也要能验收。比如一次数据快照从 2.1M 条轨迹过滤到 1.35M 条，不应只说“数据更干净”，而要报告：重复轨迹占比从 38% 降到 11%，时间同步异常从 7.4% 降到 1.2%，目标长尾任务 bucket 的成功率提升 4.6%，主分布成功率不下降，评测污染近邻为 0。这些数字才让数据治理从理念变成训练决策。

直觉例子

14.1 企业文档助手

某团队把历史内部文档、FAQ、会议纪要全部喂给模型，结果模型总是引用过期政策。排查后发现：老版本文档重复次数远多于新版本，去重只做了文件 hash，没有处理“改了日期但正文几乎一样”的版本，训练时也按文件数采样，而不是按生效版本采样。

问题不在模型架构，而在数据治理。

14.2 机器人抓取数据

另一团队收集了大量“成功抓取杯子”的示范数据，看起来量很大，但 70% 轨迹来自固定机位、固定桌布、固定杯子位置。模型上线后换一个台面颜色就退化明显。这里不是数据量不够，而是重复和分布窄共同放大了背景偏置。

治理中的常见误区

15.1 只追求更多，不追求更干净

当数据量已经很大时，再堆低质量重复样本的边际收益通常极低。

15.2 只做词面去重

对现代大模型来说，语义近重复和模板化变体同样会造成污染。

15.3 只删不打分

很多样本不是非黑即白，而是“低收益但不必完全删除”。打分和重采样往往比硬过滤更稳。

15.4 没有版本和审计

模型表现变了，却不知道哪批数据进来了、哪套规则改了，这会让问题排查非常困难。

本页结论

数据质量、去重与治理并不是训练前的清洁工，而是塑造模型能力边界的核心过程。去重提升信息效率，质量评分提升样本利用率，治理流程保证可追溯与合规。模型规模越大，算力越贵，这些工作越不是“锦上添花”，而是决定结果是否可信、是否可持续的基础设施。

工程收束

数据治理不是训练前的一次性清洗，而是 lineage、去重粒度、污染审计、许可风险和版本化组成的平台能力。成熟治理至少要把污染审计常态化，分开治理训练浪费与 benchmark 泄漏，并对数据快照、清洗配置、失败案例、回滚条件和下游接口做版本化。

下一站

回到本专题入口：训练，确认这页在整条路线中的位置。
按导航顺序继续：Scaling、课程学习与数据配比。
概念或符号卡住时，先查术语表，再回到当前页。

Charles's Castle

训练：数据质量、去重与治理

为什么数据治理是模型能力的一部分

数据质量的几个维度

2.1 正确性

2.2 信息密度

2.3 多样性

2.4 任务相关性

2.5 风险属性

去重为什么关键

文本去重方法

4.1 精确去重

4.2 n-gram / shingle 去重

4.3 语义去重

图像与多模态去重

视频与机器人轨迹去重

去重阈值怎么定

数据质量评分

数据混合与配比

数据污染问题

数据治理的组织问题

合规与隐私

质量治理的工程流水线

13.1 具体场景：VLA 轨迹数据怎么过治理

直觉例子

14.1 企业文档助手

14.2 机器人抓取数据

治理中的常见误区

15.1 只追求更多，不追求更干净

15.2 只做词面去重

15.3 只删不打分

15.4 没有版本和审计

本页结论

工程收束