论文题名: Score-Based Generative Modeling through Stochastic Differential Equations。 作者: Yang Song、Jascha Sohl-Dickstein、Diederik P. Kingma、Abhishek Kumar、Stefano E
-
论文专题讲解:VO-DP:RGB-only 扩散策略怎样借用语义和几何特征
论文题名: VO-DP: Semantic-Geometric Adaptive Diffusion Policy for Vision-Only Robotic Manipulation。 作者: Zehao Ni、Yonghao He、Lingfeng Qian、Jilei Mao、Fa Fu、Wei Sui、Hu
-
论文专题讲解:AnyFlow:任意步视频扩散蒸馏
论文题名: AnyFlow: Any-Step Video Diffusion Model with On-Policy Flow Map Distillation。 作者: Yuchao Gu、Guian Fang、Yuxin Jiang、Weijia Mao、Song Han、Han Cai、Mike Zheng
-
思考探索:读懂 Fast-FoundationStereo:从双目几何到高效推理
为什么一篇 stereo matching 论文会放进“高效推理”专题?因为这里的推理不是 LLM 的逐 token decode,而是机器人、AR、自动驾驶和工业视觉里的实时稠密深度感知。模型每慢几十毫秒,系统看到的世界就会滞后一截;模型每错一块边界,后面的避障、抓取或空间理解就可能跟着错。 Fast-Foundat
-
基础知识:模型压缩、剪枝与 NAS:先问省的是哪张账
这篇回答的问题。 如何理解“模型压缩、剪枝与 NAS”背后的核心机制、适用边界和下一步阅读路径。 很多模型压缩项目的第一版都会遇到一个尴尬结果:参数量少了,模型文件小了,论文表里的 MACs 也降了,但线上请求并没有明显变快,P99 甚至更差。原因通常不是“压缩没用”,而是压缩方法改的是一张账,真实系统卡的是另一张账。
-
具身智能:双目匹配与 Cost Volume:把深度先变成对应点问题
很多人第一次读 stereo matching,容易把它和 monocular depth 混在一起:都是输入图像,输出一张深度图。真正决定两者差异的不是网络名字,而是问题假设。单目深度主要在一张图里利用纹理、透视和语义线索推断距离;双目深度先有一对同步、标定、校正过的左右图,再利用同一个 3D 点在两张图里的横向位移
-
基础知识:预训练目标与表示学习:模型到底被要求学什么
预训练目标不是训练脚本里的一行 loss。它在规定模型看见什么、预测什么、哪些差异要保留、哪些差异可以忽略。LLM 的 next-token、BERT/MAE 的 masked modeling、CLIP 的对比学习、扩散的 denoising、V-JEPA 的 latent prediction、VLA 的 beha
-
基础知识:生成与解码:模型给出概率后,系统怎样选 token
这篇文章只回答一个问题:语言模型已经给出下一 token 的分数以后,系统怎样把概率分布变成一段可用、可控、成本可承受的输出。 解码不是“让模型回答”的按钮。它是一条状态机:每一步先拿到 logits,再做格式 mask、重复惩罚、temperature 缩放、top-k/top-p 截断、采样或搜索,然后把选中的 t
-
基础知识:泛化、正则化与分布偏移:训练 loss 下降为什么不等于模型可用
这篇文章只回答一个问题:训练集上的 loss 下降以后,为什么我们还不能说模型已经学会了任务。 优化回答的是“参数能不能把当前训练目标降下来”;泛化回答的是“这个规律能不能离开训练样本继续成立”;分布偏移回答的是“训练时看见的世界和真正使用时的世界是不是同一个世界”。这三件事连在一起,才决定模型是否可用。 图源:Dee
-
基础知识:数据与数据集基础:模型真正吃下去的不是“文件夹”
这篇文章只回答一个问题:读到“我们用某数据集训练/评测”时,怎样判断这个结论是不是可信。 数据集不是一个目录、一张表或若干 JSONL。它是一组样本定义、标签规则、来源记录、processor、split、过滤和版本共同构成的训练契约。只要契约说不清,后面的 loss、benchmark 和训练曲线都可能在回答错误问题