Charles's Castle

This is Charles's Castle

Archives Photos Essays Friends

Charles

Lv8

Categories

558

Posts

论文专题讲解：Score SDE：把扩散模型写成连续时间生成过程

论文题名： Score-Based Generative Modeling through Stochastic Differential Equations。作者： Yang Song、Jascha Sohl-Dickstein、Diederik P. Kingma、Abhishek Kumar、Stefano E
2026-05-07
AI

>

论文专题讲解
AI

| 扩散模型

| 论文专题
Read more论文专题讲解：Score SDE：把扩散模型写成连续时间生成过程
论文专题讲解：VO-DP：RGB-only 扩散策略怎样借用语义和几何特征

论文题名： VO-DP: Semantic-Geometric Adaptive Diffusion Policy for Vision-Only Robotic Manipulation。作者： Zehao Ni、Yonghao He、Lingfeng Qian、Jilei Mao、Fa Fu、Wei Sui、Hu
2026-05-05
AI

>

论文专题讲解
AI

| 具身智能

| 论文专题
Read more论文专题讲解：VO-DP：RGB-only 扩散策略怎样借用语义和几何特征
论文专题讲解：AnyFlow：任意步视频扩散蒸馏

论文题名： AnyFlow: Any-Step Video Diffusion Model with On-Policy Flow Map Distillation。作者： Yuchao Gu、Guian Fang、Yuxin Jiang、Weijia Mao、Song Han、Han Cai、Mike Zheng
2026-05-04
AI

>

论文专题讲解
AI

| 扩散模型

| 论文专题
Read more论文专题讲解：AnyFlow：任意步视频扩散蒸馏
思考探索：读懂 Fast-FoundationStereo：从双目几何到高效推理

为什么一篇 stereo matching 论文会放进“高效推理”专题？因为这里的推理不是 LLM 的逐 token decode，而是机器人、AR、自动驾驶和工业视觉里的实时稠密深度感知。模型每慢几十毫秒，系统看到的世界就会滞后一截；模型每错一块边界，后面的避障、抓取或空间理解就可能跟着错。 Fast-Foundat
2026-05-02
AI

>

思考探索
AI

| 部署与安全
Read more思考探索：读懂 Fast-FoundationStereo：从双目几何到高效推理
基础知识：模型压缩、剪枝与 NAS：先问省的是哪张账

这篇回答的问题。如何理解“模型压缩、剪枝与 NAS”背后的核心机制、适用边界和下一步阅读路径。很多模型压缩项目的第一版都会遇到一个尴尬结果：参数量少了，模型文件小了，论文表里的 MACs 也降了，但线上请求并没有明显变快，P99 甚至更差。原因通常不是“压缩没用”，而是压缩方法改的是一张账，真实系统卡的是另一张账。
2026-04-30
AI

>

基础知识
AI

| 基础知识
Read more基础知识：模型压缩、剪枝与 NAS：先问省的是哪张账
具身智能：双目匹配与 Cost Volume：把深度先变成对应点问题

很多人第一次读 stereo matching，容易把它和 monocular depth 混在一起：都是输入图像，输出一张深度图。真正决定两者差异的不是网络名字，而是问题假设。单目深度主要在一张图里利用纹理、透视和语义线索推断距离；双目深度先有一对同步、标定、校正过的左右图，再利用同一个 3D 点在两张图里的横向位移
2026-04-29
AI

>

具身智能
AI

| 具身智能

| 机器人
Read more具身智能：双目匹配与 Cost Volume：把深度先变成对应点问题
基础知识：预训练目标与表示学习：模型到底被要求学什么

预训练目标不是训练脚本里的一行 loss。它在规定模型看见什么、预测什么、哪些差异要保留、哪些差异可以忽略。LLM 的 next-token、BERT/MAE 的 masked modeling、CLIP 的对比学习、扩散的 denoising、V-JEPA 的 latent prediction、VLA 的 beha
2026-04-27
AI

>

基础知识
AI

| 训练

| 基础知识
Read more基础知识：预训练目标与表示学习：模型到底被要求学什么
基础知识：生成与解码：模型给出概率后，系统怎样选 token

这篇文章只回答一个问题：语言模型已经给出下一 token 的分数以后，系统怎样把概率分布变成一段可用、可控、成本可承受的输出。解码不是“让模型回答”的按钮。它是一条状态机：每一步先拿到 logits，再做格式 mask、重复惩罚、temperature 缩放、top-k/top-p 截断、采样或搜索，然后把选中的 t
2026-04-25
AI

>

基础知识
AI

| 基础知识
Read more基础知识：生成与解码：模型给出概率后，系统怎样选 token
基础知识：泛化、正则化与分布偏移：训练 loss 下降为什么不等于模型可用

这篇文章只回答一个问题：训练集上的 loss 下降以后，为什么我们还不能说模型已经学会了任务。优化回答的是“参数能不能把当前训练目标降下来”；泛化回答的是“这个规律能不能离开训练样本继续成立”；分布偏移回答的是“训练时看见的世界和真正使用时的世界是不是同一个世界”。这三件事连在一起，才决定模型是否可用。图源：Dee
2026-04-23
AI

>

基础知识
AI

| 基础知识
Read more基础知识：泛化、正则化与分布偏移：训练 loss 下降为什么不等于模型可用
基础知识：数据与数据集基础：模型真正吃下去的不是“文件夹”

这篇文章只回答一个问题：读到“我们用某数据集训练/评测”时，怎样判断这个结论是不是可信。数据集不是一个目录、一张表或若干 JSONL。它是一组样本定义、标签规则、来源记录、processor、split、过滤和版本共同构成的训练契约。只要契约说不清，后面的 loss、benchmark 和训练曲线都可能在回答错误问题
2026-04-22
AI

>

基础知识
AI

| 数据与评测

| 基础知识
Read more基础知识：数据与数据集基础：模型真正吃下去的不是“文件夹”

1 2 345 6…56