路线图：常见技术决策与取舍

真实的模型系统建设，很少是“看到一个 SOTA 方法就直接上”。更多时候，团队面对的是一连串不完美选择：要不要换更大模型，还是先做检索？要不要做量化，还是先蒸馏？要不要追求一步生成，还是接受十几步但更稳？要不要端到端 VLA，还是保留分层控制？这些问题没有脱离场景的标准答案，但它们确实存在一组反复出现的决策模式。本文试图把这些模式系统化，帮助你在面对复杂路线选择时少走弯路。

初学者先抓住

技术决策先分清问题类型：能力、成本、时延还是可靠性。不同问题对应不同解法；没有先归因就争论“上大模型、做缓存、做量化、补数据”，往往是在不同层面说话。

有趣例子：修餐厅排队

餐厅排队长，可能是厨师不够、菜单太复杂、点餐慢、座位周转慢，也可能是高峰调度差。AI 系统也是一样，先找瓶颈，再选技术路线。

1. 决策的起点：先分清问题类型

几乎所有技术取舍，都可以先归因到四类问题之一：

问题类型	典型信号	更可能有效的方向
能力	系统不会做，或跨任务普遍做不好	扩模、补预训练数据、改目标函数
成本	系统会做，但单位请求太贵	量化、蒸馏、缓存、路由
时延	系统会做，但响应太慢	批处理、投机、少步生成、kernel 与 serving 优化
可靠性	平均可用，但长尾、回归和部署风险高	分桶评测、灰度、回退、数据回流

很多讨论之所以低效，是因为参与者没有先统一问题类型。比如有人主张上更大模型，另一个人主张先做缓存；如果真实问题是时延，两人就不在同一层面争论。

2. 决策模式一：扩大模型，还是先补数据

这是最常见的路线分歧。若多个基础任务都碰到能力边界，且已有数据质量较高，扩模更可能有效；若失败集中在文档、图表、UI、代码、行业术语等少数高价值长尾场景，专项数据和数据治理通常更值；若训练集存在明显脏噪、重复和错配，先清数据往往比继续堆参数更划算。

可把收益粗略写成：

$\Delta U \approx \Delta U_{\text{model}} + \Delta U_{\text{data}} - \Delta C,$

关键是判断当前边际收益主要来自哪一项，而不是机械地“参数越大越好”。

选择	更适合的信号	主要风险
扩大模型	错误广泛、基础 benchmark 同时受限、新增高质量数据难获取	推理成本、训练预算和后续蒸馏/量化压力
补数据/治数据	失败高度集中，长尾样本可采集，小模型也能被数据明显修复	数据偏置、模板化和评测泄漏

3. 决策模式二：做检索增强，还是继续追求纯模型能力

当系统需要利用大量外部知识、长文档或频繁变化信息时，常见分歧是：继续把模型做大、上下文做长，还是把知识外置到检索系统。

选择	更适合的信号	主要风险
检索增强	知识频繁更新，需要权限、版本、证据引用或只访问知识库一小部分	召回质量、上下文噪声、权限链路和延迟
纯模型能力	任务更依赖推理结构，外部链路成本高，目标设备无法承受复杂系统	知识过期、证据不可追溯、长尾更新困难

3.3 现实中的中间路线

大多数成熟系统都会采用“模型能力 + 检索增强”的组合。问题不在二选一，而在于把检索边界放在哪里：是仅用于召回证据，还是让模型大量依赖外部上下文；是作为默认路径，还是只在高不确定任务中触发。

4. 决策模式三：量化、蒸馏还是换硬件

当服务成本或显存压力上升时，团队常在量化、蒸馏和硬件扩容之间犹豫。三者不是同一层手段：

路线	适合什么情况	注意点
量化	模型能力已经满意，主要痛点是显存、带宽和单位成本	依赖 runtime/kernel 支持，长尾精度要分桶验证
蒸馏	需要更小、更快、结构更简单的学生模型	需要额外训练成本，teacher 的错误也会被继承
换硬件	项目时间紧，新精度链路不成熟，负载波动导致软件优化收益难兑现	单位成本可能上升，但工程风险最低

很多时候，最优方案不是单选，而是“小步量化 + 局部蒸馏 + 分层路由”。

5. 决策模式四：追求一步生成，还是保留多步但更稳

扩散模型快速发展后，团队经常在“一步 / 少步生成”和“十几步稳健采样”之间取舍。关键不是步数越少越先进，而是目标场景是什么。

实时交互、移动端、本地生成和大量预览更适合少步路线；商业素材、复杂布局、视频编辑和结构容错率低的任务更适合保留多步采样。成熟产品通常会分层：预览模式用少步，最终导出用更多步，必要时先用蒸馏或一致性模型给出提案，再用高步数路径精修。这是一种典型“体验与质量分层”思路。

6. 决策模式五：端到端 VLA，还是保留分层控制

VLA 很诱人，因为它似乎能把视觉、语言和动作统一成一个模型。但真实机器人系统常需要在端到端与分层控制之间权衡。

端到端路线的优势是接口简洁，能直接从大规模数据里学习视觉、语言和动作的跨模态关联，对复杂语义任务更自然。分层路线的优势是控制稳定性更强，更容易插入安全规则，也更便于局部调试和实机部署。

如果任务主要受高层语义限制，且低层控制成熟，端到端收益更可能体现在高层规划和技能选择；如果任务对接触和精细控制极敏感，保留低层专用控制器往往更稳。

7. 决策模式六：世界模型先上，还是先把 reactive policy 做稳

世界模型很有吸引力，但并不是所有场景都适合优先投入。判断时先看四件事：任务是否真的需要长时规划，真实试错是否昂贵到值得做内部想象，是否已经有足够数据训练稳定世界模型，以及当前瓶颈究竟是前瞻不足，还是感知 / 控制基础还没稳。

如果系统连基本反应式策略都不稳定，直接上世界模型往往会把问题复杂化。

8. 决策模式七：先做泛化，还是先做可靠性

研究常倾向强调“能做更多任务”，工程则更关心“把核心任务做到非常稳”。这不是谁对谁错，而是阶段不同。

方向探索初期更适合优先看泛化：先验证统一架构是否有潜力，判断能力边界在哪里。接近上线时更适合优先看可靠性：任务范围已经明确，长尾和回归成本高，工程目标从“能做更多事”转向“核心任务稳定可控”。

技术负责人最大的误区之一，就是在产品阶段仍然用研究阶段的评价方式做决策。

9. 决策模式八：先修算法，还是先修评测

很多团队一看到模型表现不佳，就立刻改模型。但真实情况常常是：评测集不代表线上问题，指标与业务目标错位，错误类型没有被分桶，或者回归只是某个链路版本漂移。

若评测体系本身不完整，再多改模型也可能是在错误目标上优化。特别在 VLM、VLA、世界模型和量化系统里，“先修评测”常常是更高 ROI 的决策。

10. 决策模式九：统一平台，还是专项系统

随着模型越来越通用，团队常想做一个大一统平台：统一训练、统一 serving、统一向量系统、统一评测。但现实中，不同任务的负载画像和质量要求差异很大。

统一平台的优势是组件复用、维护成本低、数据与监控集中；专项系统的优势是针对性强，更容易满足极端性能约束，也不容易被通用抽象拖慢。一个成熟路线往往是：基础设施尽量统一，真正影响业务差异的部分保留专项优化空间。

11. 决策模式十：立即上线灰度，还是继续离线打磨

这是工程现实中的高频问题。若风险可回退、线上监控明确、离线收益虽然有限但方向正确，并且必须用真实流量验证长尾，就更适合灰度。反之，若安全风险高、回滚困难、离线评测尚不稳定，就不应急着上线。

12. 如何建立一套团队决策框架

建议每次重大路线选择都强制写清楚五件事：当前问题类型是能力、成本、时延还是可靠性；约束来自数据、硬件、时间、人力还是合规；有哪些备选路线；每条路线的短期收益、长期收益和失败成本是什么；如果路线失败，哪些中间资产仍然可复用。

把这些写清楚，会显著减少“拍脑袋式技术路线”。

13. 一个综合例子：企业文档智能系统

系统当前问题是复杂合同问答准确率不稳，且长文档时延偏高。备选路线可能包括更大 VLM、检索与重排、长尾数据回流、量化缓存和评测重建。

如果评测显示问题主要集中在长页表格和 OCR 错误页，优先级更可能是“长尾数据 + 评测修正”与“检索和结构化重排”，扩模应放到证据更充分之后，量化则属于后续成本优化。这比简单“换更大模型”更有把握。

14. 再看一个综合例子：仓库机器人 VLA

系统在简单抓取上很好，但复杂遮挡和失败恢复差。备选路线可能是扩大 VLA、引入动作分块和层级技能、采集失败恢复数据、引入世界模型做前瞻，以及增强实机安全与接管机制。

若当前最痛点是恢复失败而不是高层语义理解，更合理的顺序通常是先补失败检测与恢复评测，再做失败数据回流和技能结构改造，最后再评估世界模型是否值得引入。

15. 一个形象比喻

技术路线选择有点像登山。你不是每次都需要最陡最快的路线，也不是每次都该带最重的装备。你要先看天气、体力、补给、队伍经验和时间窗口。某条路线理论上最短，但若天气不稳、队伍没训练过，可能反而风险最大。模型系统建设也是如此，路线正确与否，从来不是看它听起来多先进，而是看它是否与当前地形真正匹配。

16. 小结

常见技术决策的本质，不在于背诵“什么时候用 A、什么时候用 B”，而在于先把问题类型、约束条件和收益结构看清，再做取舍。真正成熟的团队不一定总能选对，但它们通常能把选错的成本降到最低，并让每次路线判断都留下可复用的经验。

Charles's Castle

路线图：常见技术决策与取舍

1. 决策的起点：先分清问题类型

2. 决策模式一：扩大模型，还是先补数据

3. 决策模式二：做检索增强，还是继续追求纯模型能力

3.3 现实中的中间路线

4. 决策模式三：量化、蒸馏还是换硬件

5. 决策模式四：追求一步生成，还是保留多步但更稳

6. 决策模式五：端到端 VLA，还是保留分层控制

7. 决策模式六：世界模型先上，还是先把 reactive policy 做稳

8. 决策模式七：先做泛化，还是先做可靠性

9. 决策模式八：先修算法，还是先修评测

10. 决策模式九：统一平台，还是专项系统

11. 决策模式十：立即上线灰度，还是继续离线打磨

12. 如何建立一套团队决策框架

13. 一个综合例子：企业文档智能系统

14. 再看一个综合例子：仓库机器人 VLA

15. 一个形象比喻

16. 小结