全站证据与复现状态标准

全站证据与复现状态标准

Charles Lv8

这页是全站统一证据规范。它不替代正文、论文专题或 Claim Ledger,而是规定每个关键结论应该怎样写清楚:证据来自哪里、强到什么程度、能支持什么、不能外推到哪里。

使用原则

任何“更高效”“更稳定”“更适合世界模型 / VLA / agent”的说法,都要尽量落到一个可追踪的证据单元。论文结果、消融、系统吞吐、闭环成功率、官方 demo、toy fixture 和本站推断不能混成同一种可信度。

Evidence Snapshot 模板

高风险页面、前沿论文页、技术报告页和系统效率页优先使用这个固定表头:

Claim Direct Source Figure/Table/Setting Evidence Type Repro Status Can Support Cannot Prove
需要被读者复用的关键结论 论文、报告、官方仓库、专题页或站内 fixture Figure、Table、benchmark、demo、日志或实验设置 固定证据标签之一 固定复现标签之一 这条证据能支撑的最强说法 不能从这条证据外推的说法

正文可以继续用中文说明,但表头保持英文,方便全站检索:

1
Claim | Direct Source | Figure/Table/Setting | Evidence Type | Repro Status | Can Support | Cannot Prove

事实版本块

Evidence Snapshot 附近应补一个短事实版本块,尤其是前沿论文、官方技术报告、系统吞吐页和具身/世界模型闭环页:

Checked Date Official Source Repro Status Notes
2026-05-16 arXiv / official PDF / official repo / official project page 固定复现标签之一 写清是否只有论文、是否有作者代码、是否只是官方 demo,未见第三方证据时不要写 Independent Reproduced

推荐写法:

1
2
3
4
5
{% callout info :: 事实版本 %}
| Checked Date | Official Source | Repro Status | Notes |
| --- | --- | --- | --- |
{% endcallout %}
| 2026-05-16 | arXiv / official PDF / official repo | Paper Only | 未见本站记录的第三方独立复现;按论文/官方材料保守引用。 |

资源类型补充

Repro Status 不是“链接数量”的同义词。页面如果写 Author Code / Official Repo,正文或事实版本附近应能看到 GitHub、Hugging Face、模型卡、权重、benchmark script 或官方仓库等可检查资源;如果只有项目页、视频或 demo,应优先写 Official DemoPaper Only,并说明它不能支撑平均成功率。

资源类型 可以支持的 Repro Status 仍然不能证明
arXiv / official PDF Paper Only 代码可运行、结果已独立复现
GitHub / official repo Author Code / Official Repo 所有论文 claim 都已复现
Hugging Face model card / weights Author Code / Official Repo benchmark 数字和闭环任务自动成立
official project page / video / interactive demo Official Demo 平均成功率、鲁棒性、跨硬件泛化
本站脚本或 mini fixture Toy Fixture 真实模型、真实机器人或论文方法有效

固定证据标签

Evidence Type 何时使用 典型能支持什么 不能证明什么
Paper Result 论文或技术报告给出主实验、主表、主图 在该论文设置下方法有效或优于基线 跨任务、跨硬件、跨数据分布稳定成立
Ablation 模块、数据、目标函数、超参或系统组件消融 某个因素在该设置下有贡献 消融幅度能照搬到其他系统
System Throughput 报告延迟、吞吐、显存、通信、kernel 或服务指标 系统路径能降低某类运行成本 任务质量、动作质量或安全性同步提升
Closed-loop 仿真或真实环境中执行任务并反馈成败 方法能在该任务分布和评测规则下影响决策 开放世界、长时部署或未见硬件安全
Official Demo 官方页面、视频、交互 demo 或少量 qualitative case 系统展示了某种能力或交互形态 平均成功率、鲁棒性、可复现收益
Toy Fixture 本站小样例、脚本、schema、mini-chain 说明证据链、字段契约或指标计算方式 真实模型或论文方法有效
Site Inference 本站把多篇论文和工程经验合成判断 形成路线假设、实验设计或工程优先级 直接当作论文结论或复现实验

固定复现标签

Repro Status 含义 写作边界
Independent Reproduced 有独立第三方复现实验或多方可比报告 只能在确有第三方证据时使用
Author Code / Official Repo 作者发布代码、权重、模型、benchmark 或运行脚本 说明可检查接口,不等于所有 claim 已复现
Paper Only 只有论文或技术报告中的结果 不能写成已复现,前沿 claim 要保留边界
Official Demo 主要证据来自官方 demo、项目页或视频 只能支持展示能力,不支持平均收益
Site Inference 主要是本站归纳和工程判断 必须说明需要单独实验验证
Toy Fixture 主要是本站小型可复算样例 只能证明证据链写法和指标脚本可运行

成熟度分层

全站读法里还要区分“技术成熟度”。同样是 Paper Result,经典基础方法、工程常用系统、前沿模型报告和本站推断的采用风险完全不同。

成熟度 典型形态 采用建议 必须补的边界
经典已验证 PlaNet、Dreamer、ZeRO、Megatron-LM、SmoothQuant 等被广泛讨论的基础路线 可作为 baseline 或解释框架 仍要核对任务、硬件和数据分布
工程常用 vLLM/KV、FSDP/ZeRO、FP8 路径、profiling 与 SLO 工具链 可进入工程方案比较 端到端 trace 和质量回归必须同表
前沿待复现 2025-2026 新模型、技术报告、闭源系统或新视频世界模型 适合作为实验假设 默认不写独立复现,不能外推到生产
官方展示 官方 demo、项目视频、少量 qualitative case 适合说明能力形态 不能支持平均成功率或稳定收益
本站推断 跨论文合成、路线判断、toy fixture 适合设计实验和阅读路径 不能替代论文结果或真实闭环

图与表的解释规则

复杂图必须紧跟解释框。只写“图源”不够,读者还需要知道这张图如何进入判断链。

推荐格式:

1
2
3
4
5
6
7
8
<small>图源:论文名,Figure X。原图意:...</small>

{% callout info :: 这张图怎么读 %}
**输入输出**:...
**效率机制**:...
**对主线意义**:...
**不能证明什么**:...
{% endcallout %}

结果表还要额外写 读数边界

1
2
3
{% callout warning :: 读数边界 %}
benchmark 条件、是否 closed-loop、是否真实机器人、是否系统吞吐、是否独立复现。
{% endcallout %}

常见误写法

容易误导的写法 更稳的写法
“该 demo 证明系统可用于真实机器人” “官方 demo 展示交互形态;真实机器人闭环收益仍需 closed-loop eval”
“kernel 快 2 倍,所以模型更好” “System Throughput 支持成本下降;质量和安全要单独验收”
“论文 SOTA,说明路线通用” “Paper Result 支持该 benchmark 设置;跨分布和部署需要复现”
“本站 mini-chain 证明方法有效” “Toy Fixture 只证明证据链字段和指标计算方式”

和 Claim Ledger 的关系

Claim Ledger 是世界模型高效训练主线的证据总账;本页是全站写作标准。正文页面最好两者都接入:局部 Evidence Snapshot 让读者在当前页读懂证据边界,Claim Ledger 则用于跨页面核对前沿 claim、复现状态和不能外推项。

  • Title: 全站证据与复现状态标准
  • Author: Charles
  • Created at : 2026-04-28 09:00:00
  • Updated at : 2026-04-28 09:00:00
  • Link: https://charles2530.github.io/2026/04/28/ai-files-references-evidence-and-reproducibility-standard/
  • License: This work is licensed under CC BY-NC-SA 4.0.
Comments