本站判断原则

这页说明本站如何判断一项技术是否真的服务世界模型高效训练。它不替代全站证据与复现状态标准、Claim Ledger 或全站效率技术覆盖矩阵，而是把这些页面背后的判断口径写成更短的原则。

核心 thesis

世界模型效率不是单一训练技巧，而是表示、交互、系统与验证共同决定的闭环问题。一个方法只有同时说清“省什么成本、牺牲什么、证据是什么、如何验收、不能外推什么”，才适合进入本站主线。

五条原则

原则	写作时必须回答	常见误区
高效是成本向量，不是形容词	省的是数据、token、显存、通信、rollout 延迟、采样步数、验证预算，还是部署成本	只写“更快/更省”，不说明成本项
表征压缩必须保留决策变量	latent/token/geometry 是否保留动作敏感性、接触、遮挡、风险和目标状态	token 更少就默认控制更好
系统吞吐不等于任务质量	throughput、latency、MFU、KV memory 是否和质量回归同表报告	kernel 快就默认模型更强
Open-loop 指标不能替代 closed-loop utility	FVD、VBench、loss、静态 benchmark 是否有 action sensitivity、closed-loop success 或 failure replay 支撑	视频自然度直接外推为规划收益
没有第三方证据时不写独立复现	是否只有论文、官方代码、官方 demo、toy fixture 或本站推断	把 official repo 当成 independent reproduction

证据强度

本站把证据分成不同用途。Paper Result 能说明论文设置下的方法有效，但不能自动跨任务；Ablation 能说明某个模块在该设置下有贡献，但不能把幅度照搬；System Throughput 能说明运行成本下降，但不证明动作质量或安全；Closed-loop 最接近世界模型主线，但仍受任务、平台和数据分布限制；Official Demo 只能展示能力形态；Toy Fixture 只能证明证据链和指标脚本写法；Site Inference 只是工程假设。

因此，每个关键 claim 至少要写清三件事：

字段	最小要求	例子
Direct Source	论文、报告、官方仓库、项目页或本站 fixture	arXiv、official PDF、GitHub、HF model card、mini-chain
Evidence Type	使用固定证据标签	Paper Result / System Throughput / Closed-loop
Cannot Prove	明确不能外推到哪里	不能证明真实机器人安全、跨分布泛化或闭环收益

成熟度分层

本站不会把所有新论文放在同一采用风险里。一个方向是否值得进入实验，除了看分数，也要看它处在什么成熟度层级。

成熟度	适合怎么用	最容易误用的地方
经典已验证	作为 baseline、概念锚点或复现实验参照	忽略新任务的数据分布和硬件约束
工程常用	作为训练、推理、量化、算子的候选实现	只看 microbench 或吞吐，不看质量回归
前沿待复现	作为研究假设、消融对象或小规模验证路线	把论文主表直接当成生产收益
官方展示	作为能力形态、交互方式或系统界面参考	把 demo 当成平均成功率
本站推断	作为阅读路径、实验设计和 claim 审计框架	把综合判断写成论文已证明

世界模型主线的验收顺序

一个世界模型相关页面最好按下面顺序收口：

先说明模型预测什么：pixel、latent、embedding、reward、done、risk、action 还是 video rollout。
再说明动作如何进入模型：没有 action 的 masked/JEPA 表征不能直接等同于可规划世界模型。
接着说明效率来源：latent 压缩、masked objective、imagination、少步蒸馏、KV/cache、低比特或系统调度。
然后给出最小验收：action sensitivity、closed-loop success、cost per success、risk ECE、latency、显存或吞吐。
最后写清不能证明什么：demo、open-loop 视频、系统吞吐、toy fixture 都不能替代真实闭环。

写作门禁

如果页面声称	必须补的门禁	不能只靠
数据更省	学习曲线、样本预算、数据来源和失败桶	单个最终分数
训练更省	MFU/step time、显存、通信、checkpoint 和收敛指标	单张吞吐图
推理更省	TTFT/TPOT、P95/P99、KV memory、质量回归	平均延迟
表征更好	downstream、action sensitivity、遮挡/接触/risk case	embedding 可视化
闭环更强	closed-loop success、失败 replay、恢复策略和安全门禁	open-loop loss 或视频自然度
部署更稳	SLO、fallback、监控、回滚和成本 per success	离线 benchmark

读者可以把这页当成一个审稿清单：如果某个段落只剩下“方法很强、速度很快、demo 很自然”，它还没有达到本站的证据标准。

最佳反例

最能检验这套原则的反例，是一个视频世界模型 demo 看起来非常自然，系统吞吐也很高，但固定当前观测、替换候选动作后，未来 latent、风险分数和成功排序几乎不变。这个系统可能有优秀的视频先验和工程实现，却仍不能支撑“可用于规划”的 claim；它必须补 action sensitivity、closed-loop success、failure replay 和 cost per success。

和其它全站入口的关系

入口	负责什么	不负责什么
本页	给出判断原则和写作门禁	不逐条维护论文证据
证据与复现状态标准	规定 `Evidence Snapshot`、事实版本和标签写法	不判断具体路线优先级
全站效率矩阵	按瓶颈把读者导向专题和案例	不替代原论文结果
Claim Ledger	维护世界模型高效训练主线的关键 claim 总账	不覆盖全站所有基础知识

实际写页面时，顺序可以很简单：先用本页判断 claim 是否值得写，再用证据标准把来源和复现状态写清，最后把它接回效率矩阵或 Claim Ledger。这样能避免两种常见问题：一是把论文摘要改写成“很厉害”的短评；二是把系统工程收益、模型能力收益和闭环决策收益写成同一种证据。