论文专题讲解
2026
18
- 论文专题讲解:Motus:把 latent action、世界模型和 VLA 合到一个生成框架
- 论文专题讲解:VGGT-Ω:几何重建怎样变成具身空间表征
- 论文专题讲解:Fast-WAM:WAM 一定要推理时想象未来吗
- 论文专题讲解:D4RT:动态场景的 4D 重建与跟踪
- 论文专题讲解:kai0:资源受限下的高可靠机器人操作
- 论文专题讲解:World Model for Robot Learning:机器人学习世界模型综述
- 论文专题讲解:vLLM / PagedAttention:为什么 KV cache 需要分页管理
- 论文专题讲解:Lance:统一多模态模型,为什么对世界模型有启发
- 论文专题讲解:Emu3.5:原生多模态模型如何变成世界学习器
- 论文专题讲解:Beyond Language Modeling:多模态预训练怎样长出世界模型能力
- 论文专题讲解:BAGEL:交错多模态预训练中的世界建模涌现
- 论文专题讲解:GPU Utilization:为什么 100% 不等于训练跑满
- 论文专题讲解:论文专题写作与验收规范
- 论文专题讲解:InCoder-32B:工业代码基础模型与执行验证训练
- 论文专题讲解:MapAnything:统一前向 Metric 3D 重建骨干
- 论文专题讲解:Score SDE:把扩散模型写成连续时间生成过程
- 论文专题讲解:VO-DP:RGB-only 扩散策略怎样借用语义和几何特征
- 论文专题讲解:AnyFlow:任意步视频扩散蒸馏
2025
53
- 论文专题讲解:Embodied World Model Survey:具身世界模型综述
- 论文专题讲解:V-JEPA:视频潜变量预测表征
- 论文专题讲解:Towards Video World Models:视频世界模型五个门槛
- 论文专题讲解:Self Forcing:对齐自回归视频训练与推理
- 论文专题讲解:RingAttention:近无限上下文训练
- 论文专题讲解:PlaNet:像素规划的潜变量动力学
- 论文专题讲解:LWM:百万 token 视频语言世界模型
- 论文专题讲解:LingBot-World:视频基础模型到世界模拟器
- 论文专题讲解:JEPA:预测式表征学习路线
- 论文专题讲解:H-JEPA:层级 JEPA 与潜变量 EBM
- 论文专题讲解:Genie:没有动作标签,怎样学出可交互环境
- 论文专题讲解:DreamerV3:世界模型怎样在 latent 里训练策略
- 论文专题讲解:DreamerV2:离散世界模型玩 Atari
- 论文专题讲解:Dreamer:在 latent imagination 里训练 actor-critic
- 论文专题讲解:Qwen3.5-Omni:Thinker-Talker 与全模态 Agent
- 论文专题讲解:Qwen3:Thinking 模式、36T 预训练与蒸馏
- 论文专题讲解:Nemotron 3 Super:Mamba-MoE 与异步多环境 RL
- 论文专题讲解:Kimi K2:MuonClip、万亿 MoE 与 Agent 数据
- 论文专题讲解:GPT-4o System Card:Omni 安全与多模态评测
- 论文专题讲解:Gemini 2.5:动态 Thinking 与长上下文 Agent
- 论文专题讲解:DeepSeek-V4:百万上下文与 FP4 后训练
- 论文专题讲解:DeepSeek-V3:671B MoE、MLA 与 FP8 训练
- 论文专题讲解:DeepSeek-R1:RL 激发推理能力
- 论文专题讲解:Low-bit LLM Survey:低比特大模型从格式到推理系统
- 论文专题讲解:KVSlimmer:非对称 KV 合并的数学与工程
- 论文专题讲解:Fast-FoundationStereo:实时 Zero-Shot 双目匹配
- 论文专题讲解:EAGLE:为什么 draft 不一定要是一个小模型
- 论文专题讲解:EAGLE-3:为什么 draft model 要在训练时“见过自己犯错”
- 论文专题讲解:EAGLE-2:用动态 Draft Tree 加速投机解码
- 论文专题讲解:ZeRO:数据并行真正浪费的是训练状态副本
- 论文专题讲解:SLA / SLA2:DiT 稀疏线性 Attention
- 论文专题讲解:Muon:LLM 预训练优化器
- 论文专题讲解:Megatron-LM:Tensor Model Parallel 的大模型训练栈
- 论文专题讲解:MagiAttention:超长上下文分布式 Attention
- 论文专题讲解:Attn-QAT:4-bit Attention 量化感知训练
- 论文专题讲解:Video Prediction Policy:预测视觉表征训练机器人策略
- 论文专题讲解:VGGT:一次前向推理怎样恢复相机、深度、点云与轨迹
- 论文专题讲解:SpatialVLA:3D 空间表征接入 VLA
- 论文专题讲解:RT-2:把 web-scale VLM 变成会输出动作的 VLA
- 论文专题讲解:π0.5:开放世界 VLA
- 论文专题讲解:GR-3:少样本长时程 VLA
- 论文专题讲解:GR-2:Web 视频知识怎样迁移到机器人操作
- 论文专题讲解:DreamZero:世界动作模型为什么可以做零样本策略
- 论文专题讲解:Depth Anything:无标注图像怎样变成单目深度基础模型
- 论文专题讲解:Depth Anything V2:单目深度的数据配方
- 论文专题讲解:Depth Anything 3:任意视角的 3D 几何底座
- 论文专题讲解:Wan2.1:开源视频生成系统路线
- 论文专题讲解:Phased DMD:分阶段少步蒸馏
- 论文专题讲解:DPM-Solver++:为 Guidance 场景设计的扩散 ODE 求解器
- 论文专题讲解:DMD2:更稳的少步分布匹配蒸馏
- 论文专题讲解:DMD:一步扩散蒸馏
- 论文专题讲解:Diffusion Forcing:next-token 与全序列扩散
- 论文专题讲解:CausVid:流式自回归视频扩散
1