Mamba 是近几年最重要的 Transformer 替代/补充路线之一。它的目标不是把 token 之间两两做 attention,而是让序列沿时间方向维护一个紧凑状态,用线性复杂度处理长序列。混合 Mamba-Transformer 架构则更务实:保留一部分 attention 做精确检索和复杂 token 交互,
-
基础知识:线性层到 GEMM
如果把现代大模型拆到最底层,会发现大量计算都在做矩阵乘。但这里要先分清三层概念: Linear 是模型层, MatMul 是数学/框架里的矩阵乘操作, GEMM 是底层线性代数库和 GPU kernel 常用的 dense matrix-matrix multiplication 形式。它们相关,但不是同一个词。 这页
-
基础知识:数据划分与评测指标
模型训练不是只看 loss,模型能力也不是只看一个 benchmark 分数。要判断一个模型是否真的更好,必须把数据划分、指标选择、分桶评测和错误分析放在一起。 这页先回答“数据划分与评测指标”在「基础知识」里的位置:它解决什么局部问题,依赖哪些前置,最后会影响哪类工程或研究判断。 前置 :先看本页要补哪一个最小概念;
-
基础知识:卷积与视觉特征
卷积是视觉模型里最经典的结构之一。即使 Transformer 很流行,卷积仍然是理解 CNN、UNet、视觉编码器和扩散模型的重要基础。 这页先回答“卷积与视觉特征”在「基础知识」里的位置:它解决什么局部问题,依赖哪些前置,最后会影响哪类工程或研究判断。 前置 :先看本页要补哪一个最小概念;公式或术语卡住时回到术语表
-
基础知识:自动微分与激活显存
训练大模型时,显存压力往往不是权重单独造成的,而是权重、梯度、optimizer state 和中间激活一起造成的。自动微分让训练变简单,也带来了保存计算图和激活的显存成本。 这页先回答“自动微分与激活显存”在「基础知识」里的位置:它解决什么局部问题,依赖哪些前置,最后会影响哪类工程或研究判断。 前置 :先看本页要补哪
-
具身智能:VLA、WAM 与世界模型地图
这一页是入门页之后的第二层地图。入门页已经讲了基本符号和四类模型;这里专门回答更工程化的问题: 这页先回答“VLA、WAM 与世界模型地图”在「具身智能」里的位置:它解决什么局部问题,依赖哪些前置,最后会影响哪类工程或研究判断。 前置 :先知道 VLA、世界模型、相机/深度和评测集的基本角色。 必要时先回 具身智能入口
-
具身智能:VLA 数据、模型与评测路线
这页是一份具身智能和 VLA 的扩展教程,重点放在三件事:常用 benchmark 和数据集到底在测什么,VLA / 视频预测策略 / 空间与深度 VLA 各自解决什么,以及怎样把“数据更多”升级成“数据 recipe 更好、评测更真实、闭环更稳”。 这页先回答“VLA 数据、模型与评测路线”在「具身智能」里的位置:它
-
具身智能:具身任务谱系与评测
具身智能不是单一任务,而是一整套任务族谱。把机械臂抓取、移动机器人导航、家庭服务、工业装配、人机协作都放在一起时,很容易陷入一种错觉:只要有一个统一模型,问题就算被解决了。实际上,不同任务对感知、记忆、规划、控制、安全与数据的要求差异极大。理解这些差异,是选择 Benchmark、设计训练数据和解释实验结果的前提。 这
-
具身智能:Sim2Real 与具身数据引擎
具身智能最终一定会撞上一堵墙 : 仿真里一切顺利,真实世界里系统却开始抓空、打滑、误判、抖动、卡住。 这页先回答“Sim2Real 与具身数据引擎”在「具身智能」里的位置:它解决什么局部问题,依赖哪些前置,最后会影响哪类工程或研究判断。 前置 :先知道 VLA、世界模型、相机/深度和评测集的基本角色。 必要时先回 具身
-
具身智能:Rerun:具身智能的多模态时序数据层
Rerun 不是一个 VLA 模型,也不是仿真器。它更像具身智能系统里的 黑盒飞行记录仪 + 可视化回放器 + 可查询数据层 :把相机、深度、点云、机器人位姿、动作、文本、标量和模型输出放到同一条时间线上,让你能复盘“机器人到底在什么时候看到了什么、相信了什么、做了什么”。 这页先回答“Rerun:具身智能的多模态时序