VLA 若直接逐步输出低层动作,往往很快遇到两个问题:一是时序太长,语言到动作的因果链条难学;二是细粒度控制噪声大,模型容易把高层意图和低层执行搅在一起。动作分块(action chunking)、层级策略(hierarchical policies)和潜在技能(latent skills)正是为了解决这个问题。它们的
-
训练:W&B:训练实验追踪与证据链治理
Weights & Biases,常写作 W&B,不是训练框架本身,而是把训练过程里的 配置、指标、系统状态、数据版本、模型产物、报告和协作记录 组织起来的实验平台。官方站点把它称为 AI developer platform,并把 Experiments、Reports、Artifacts、Tables、Sweeps
-
训练:稳定性与故障排查
大模型训练里最贵的失败,往往不是“效果差一点”,而是训练跑到中后期突然 nan 、loss spike、恢复后曲线漂移、低精度路径悄悄失真,最后一整段 GPU 小时白白损失。稳定性排障的目标,是把这些高代价问题拆成可观测、可定位、可复现的流程。 这页先回答“训练稳定性与故障排查”在「训练」里的位置:它解决什么局部问题,
-
训练:Scaling Law 与训练经济学
大模型研究早已不是纯学术“试试看”。一次训练可能消耗大量 GPU 小时、标注预算、工程人力和评测时间。于是一个更现实的问题出现了:什么样的实验值得做,什么时候应该扩大模型,什么时候应该增加数据,什么时候该把钱花在推理优化或数据治理上?Scaling law 与实验经济学,正是帮助团队回答这些问题的框架。 这页先回答“S
-
训练:Scaling、课程学习与数据配比
很多训练讨论在谈模型结构,但真正决定大模型成长曲线的,往往是 Scaling 、课程学习和数据混合。它们共同决定有限计算预算会被分给哪些样本、哪些阶段、哪些能力。 这页先回答“Scaling、课程学习与数据配比”在「训练」里的位置:它解决什么局部问题,依赖哪些前置,最后会影响哪类工程或研究判断。 前置 :先知道 los
-
训练:预训练、微调与对齐
今天的大模型几乎都不是一次训练出来的。它们通常经历三层递进过程:预训练、监督微调和偏好对齐。三层做的事情不同,混成一个概念会让模型设计和问题诊断失真。 这页先回答“预训练、微调与对齐”在「训练」里的位置:它解决什么局部问题,依赖哪些前置,最后会影响哪类工程或研究判断。 前置 :先知道 loss、optimizer、ba
-
训练:偏好数据与对齐失效
很多团队在做对齐时,会把注意力集中在 RLHF 、 DPO 、 IPO 、 ORPO 这样的算法名字上。 但现实里更决定结果的,往往是偏好数据长什么样、偏好标签是否一致、对齐目标是否和真实业务一致,以及奖励或偏好目标到底在塑造什么行为。 这页先回答“偏好数据与对齐失效”在「训练」里的位置:它解决什么局部问题,依赖哪些前
-
训练:后训练数据引擎与 Judge 模型
基础预训练结束后,真正决定模型“像不像产品”的,往往是后训练:指令跟随、偏好对齐、工具使用、拒答边界、风格控制和领域适配。后训练的核心竞争力越来越不是单个算法名词,而是能否持续找到高价值样本、生成有效候选、用 judge 扩大评价吞吐、再把结果稳定回流到 SFT、偏好训练、reward model 和回归集。 这页先回
-
训练:论文图解索引
本页作为训练专题的论文原图索引,优先收录来自论文、论文项目页或公共学术资料的图,并在每张图下解释它对应训练专题里的哪类知识点。 这页先回答“论文图解索引”在「训练」里的位置:它解决什么局部问题,依赖哪些前置,最后会影响哪类工程或研究判断。 前置 :先知道 loss、optimizer、batch、checkpoint
-
训练:目标函数、优化器与 LR 日程
模型架构决定系统允许学什么,数据决定系统能看到什么,目标函数、优化器和学习率日程决定系统实际沿着怎样的路径学到什么。同一个模型、同一批数据,仅仅更换 loss 配方和 schedule,就可能得到截然不同的训练轨迹。 这页先回答“目标函数、优化器与 LR 日程”在「训练」里的位置:它解决什么局部问题,依赖哪些前置,最后