Charles's Castle
Charles's Castle
HOME
CATEGORIES
TAGS
ABOUT
ME
GITHUB
BLOG
STATISTICS
HOME
CATEGORIES
TAGS
ABOUT
ME
GITHUB
BLOG
STATISTICS
Archives
Photos
Essays
Friends
47
Tags
95
Categories
558
Posts
强化学习
2026
1
VLM/VLA:数据与策略学习:从示范轨迹到闭环策略
2025
8
强化学习:verl 训练流程:一次 RL 更新到底发生了什么
强化学习:世界模型中的强化学习
强化学习:Policy Gradient、PPO 与 GRPO
强化学习:MDP、价值函数与 Bellman
论文专题讲解:Dreamer:在 latent imagination 里训练 actor-critic
论文专题讲解:Nemotron 3 Super:Mamba-MoE 与异步多环境 RL
论文专题讲解:DeepSeek-R1:RL 激发推理能力
论文专题讲解:Video Prediction Policy:预测视觉表征训练机器人策略
1
EXIF
EXIF