Category: 论文专题讲解 | Charles's Castle

Charles's Castle

Charles's Castle

HOME
CATEGORIES
TAGS
ABOUT
- ME
- GITHUB
- BLOG
- STATISTICS

HOME
CATEGORIES
TAGS
ABOUT

ME

GITHUB

BLOG

STATISTICS
Archives
Photos
Essays
Friends

论文专题讲解

2026 18

论文专题讲解：Motus：把 latent action、世界模型和 VLA 合到一个生成框架
论文专题讲解：VGGT-Ω：几何重建怎样变成具身空间表征
论文专题讲解：Fast-WAM：WAM 一定要推理时想象未来吗
论文专题讲解：D4RT：动态场景的 4D 重建与跟踪
论文专题讲解：kai0：资源受限下的高可靠机器人操作
论文专题讲解：World Model for Robot Learning：机器人学习世界模型综述
论文专题讲解：vLLM / PagedAttention：为什么 KV cache 需要分页管理
论文专题讲解：Lance：统一多模态模型，为什么对世界模型有启发
论文专题讲解：Emu3.5：原生多模态模型如何变成世界学习器
论文专题讲解：Beyond Language Modeling：多模态预训练怎样长出世界模型能力
论文专题讲解：BAGEL：交错多模态预训练中的世界建模涌现
论文专题讲解：GPU Utilization：为什么 100％不等于训练跑满
论文专题讲解：论文专题写作与验收规范
论文专题讲解：InCoder-32B：工业代码基础模型与执行验证训练
论文专题讲解：MapAnything：统一前向 Metric 3D 重建骨干
论文专题讲解：Score SDE：把扩散模型写成连续时间生成过程
论文专题讲解：VO-DP：RGB-only 扩散策略怎样借用语义和几何特征
论文专题讲解：AnyFlow：任意步视频扩散蒸馏

2025 53

论文专题讲解：Embodied World Model Survey：具身世界模型综述
论文专题讲解：V-JEPA：视频潜变量预测表征
论文专题讲解：Towards Video World Models：视频世界模型五个门槛
论文专题讲解：Self Forcing：对齐自回归视频训练与推理
论文专题讲解：RingAttention：近无限上下文训练
论文专题讲解：PlaNet：像素规划的潜变量动力学
论文专题讲解：LWM：百万 token 视频语言世界模型
论文专题讲解：LingBot-World：视频基础模型到世界模拟器
论文专题讲解：JEPA：预测式表征学习路线
论文专题讲解：H-JEPA：层级 JEPA 与潜变量 EBM
论文专题讲解：Genie：没有动作标签，怎样学出可交互环境
论文专题讲解：DreamerV3：世界模型怎样在 latent 里训练策略
论文专题讲解：DreamerV2：离散世界模型玩 Atari
论文专题讲解：Dreamer：在 latent imagination 里训练 actor-critic
论文专题讲解：Qwen3.5-Omni：Thinker-Talker 与全模态 Agent
论文专题讲解：Qwen3：Thinking 模式、36T 预训练与蒸馏
论文专题讲解：Nemotron 3 Super：Mamba-MoE 与异步多环境 RL
论文专题讲解：Kimi K2：MuonClip、万亿 MoE 与 Agent 数据
论文专题讲解：GPT-4o System Card：Omni 安全与多模态评测
论文专题讲解：Gemini 2.5：动态 Thinking 与长上下文 Agent
论文专题讲解：DeepSeek-V4：百万上下文与 FP4 后训练
论文专题讲解：DeepSeek-V3：671B MoE、MLA 与 FP8 训练
论文专题讲解：DeepSeek-R1：RL 激发推理能力
论文专题讲解：Low-bit LLM Survey：低比特大模型从格式到推理系统
论文专题讲解：KVSlimmer：非对称 KV 合并的数学与工程
论文专题讲解：Fast-FoundationStereo：实时 Zero-Shot 双目匹配
论文专题讲解：EAGLE：为什么 draft 不一定要是一个小模型
论文专题讲解：EAGLE-3：为什么 draft model 要在训练时“见过自己犯错”
论文专题讲解：EAGLE-2：用动态 Draft Tree 加速投机解码
论文专题讲解：ZeRO：数据并行真正浪费的是训练状态副本
论文专题讲解：SLA / SLA2：DiT 稀疏线性 Attention
论文专题讲解：Muon：LLM 预训练优化器
论文专题讲解：Megatron-LM：Tensor Model Parallel 的大模型训练栈
论文专题讲解：MagiAttention：超长上下文分布式 Attention
论文专题讲解：Attn-QAT：4-bit Attention 量化感知训练
论文专题讲解：Video Prediction Policy：预测视觉表征训练机器人策略
论文专题讲解：VGGT：一次前向推理怎样恢复相机、深度、点云与轨迹
论文专题讲解：SpatialVLA：3D 空间表征接入 VLA
论文专题讲解：RT-2：把 web-scale VLM 变成会输出动作的 VLA
论文专题讲解：π0.5：开放世界 VLA
论文专题讲解：GR-3：少样本长时程 VLA
论文专题讲解：GR-2：Web 视频知识怎样迁移到机器人操作
论文专题讲解：DreamZero：世界动作模型为什么可以做零样本策略
论文专题讲解：Depth Anything：无标注图像怎样变成单目深度基础模型
论文专题讲解：Depth Anything V2：单目深度的数据配方
论文专题讲解：Depth Anything 3：任意视角的 3D 几何底座
论文专题讲解：Wan2.1：开源视频生成系统路线
论文专题讲解：Phased DMD：分阶段少步蒸馏
论文专题讲解：DPM-Solver++：为 Guidance 场景设计的扩散 ODE 求解器
论文专题讲解：DMD2：更稳的少步分布匹配蒸馏
论文专题讲解：DMD：一步扩散蒸馏
论文专题讲解：Diffusion Forcing：next-token 与全序列扩散
论文专题讲解：CausVid：流式自回归视频扩散

1

© 2022 - 2026 Charles

558 posts in total 2222.4k words in total

VISITOR COUNT TOTAL PAGE VIEWS

POWERED BY Hexo THEME Redefine v2.9.0

Blog up for days hrs Min Sec

EXIF