Charles's Castle

This is Charles's Castle

Archives Photos Essays Friends

Charles

Lv8

Categories

558

Posts

思考探索：具身智能现状：VLA、数据工厂与真实闭环

具身智能现在最迷人的地方，也是最容易误判的地方，是 demo 看起来越来越像“机器人真的懂了”。但系统化梳理后的提醒很清楚：真正的问题不只是模型会不会看图出动作，而是它有没有任务状态、会不会拒绝无效指令、能不能从失败中恢复，数据是不是太干净，评测是不是只看了最终状态。图源：Wikimedia Commons: Hyd
2026-01-07
AI

>

思考探索
AI

| 具身智能

| 数据与评测
Read more思考探索：具身智能现状：VLA、数据工厂与真实闭环
路线图：研究与工程学习路径

当一个知识体系同时覆盖扩散模型、VLM、VLA、量化、训练、推理、世界模型与具身智能时，真正困难的往往不是“资料太少”，而是“资料太多而缺乏路径”。这份学习路径不是简单罗列章节，而是给出一条兼顾研究理解、工程实现和系统判断力的推进顺序。它尤其适合已经具备基础机器学习背景、希望在 3 到 12 个月内建立系统能力的人。
2026-01-05
AI

>

路线图
AI

| 路线图
Read more路线图：研究与工程学习路径
路线图：快速对照表

这一页把全站几个核心主题放到同一张地图里，目的不是做百科式罗列，而是帮助你形成一个更稳定的判断框架：这个方向究竟解决什么问题，输入和输出是什么，瓶颈发生在训练、推理、部署还是现实世界交互，学习时哪些数学对象必须看懂、哪些工程对象必须跟住。如果把整站内容看成一个 AI 系统谱系，可以先用一句话概括：这几个主题不是平行
2026-01-03
AI

>

路线图
AI

| 路线图
Read more路线图：快速对照表
路线图：常见技术决策与取舍

真实的模型系统建设，很少是“看到一个 SOTA 方法就直接上”。更多时候，团队面对的是一连串不完美选择：要不要换更大模型，还是先做检索？要不要做量化，还是先蒸馏？要不要追求一步生成，还是接受十几步但更稳？要不要端到端 VLA，还是保留分层控制？这些问题没有脱离场景的标准答案，但它们确实存在一组反复出现的决策模式。本文试
2026-01-02
AI

>

路线图
AI

| 路线图
Read more路线图：常见技术决策与取舍
强化学习：verl 训练流程：一次 RL 更新到底发生了什么

verl 是一个面向大模型 RL 后训练的工程框架，官方定位是 verl/HybridFlow: A Flexible and Efficient RL Post-Training Framework 。这篇不复述安装命令，也不把源码入口列成清单；它只回答一个问题：为什么 RLHF/GRPO 训练不像 SFT 那样一
2025-12-31
AI

>

强化学习
AI

| 强化学习
Read more强化学习：verl 训练流程：一次 RL 更新到底发生了什么
强化学习：世界模型中的强化学习

世界模型不是“会生成未来画面”就够了。对决策系统来说，世界模型真正要回答的是：如果我在当前状态做这个动作，未来会发生什么，这个未来是否值得执行。强化学习提供了三件工具：用 MDP/Bellman 表达长期后果，用 value/reward 判断候选未来，用 policy 或 planner 把高价值未来变成动作。
2025-12-29
AI

>

强化学习
AI

| 世界模型

| 强化学习
Read more强化学习：世界模型中的强化学习
强化学习：Policy Gradient、PPO 与 GRPO

这篇只回答一个问题：如果模型的动作来自采样，甚至是离散 token，为什么还能用梯度把它训练得更好？ Policy Gradient 给出“提高好采样概率、降低坏采样概率”的基本方法；Actor-Critic 用 value 降低方差；PPO 用概率比和 KL 控制更新幅度；GRPO 用同题多样本的相对奖励替代 cr
2025-12-28
AI

>

强化学习
AI

| 强化学习
Read more强化学习：Policy Gradient、PPO 与 GRPO
强化学习：MDP、价值函数与 Bellman

这篇回答的问题。如何理解“MDP、价值函数与 Bellman”背后的核心机制、适用边界和下一步阅读路径。强化学习最核心的问题不是“用哪个算法”，而是：一个 agent 现在做出的动作，会怎样改变未来，以及怎样把未来的好坏反推回当前动作。 MDP 给出决策问题的语言，value function 给出未来收益的度量
2025-12-26
AI

>

强化学习
AI

| 强化学习
Read more强化学习：MDP、价值函数与 Bellman
量化：服务栈与硬件选择

这一页讲量化放到服务系统里以后，怎样按硬件、延迟、吞吐、成本和质量目标做取舍。具体 runtime 兼容性放在量化运行时与部署框架。核心问题量化服务选型真正要回答的是：低比特带来的节省，是否能在你的硬件、runtime、请求分布和质量门槛下兑现成更低成本或更高容量。这句话里每个词都重要。硬件决定 FP8/IN
2025-12-24
AI

>

量化
AI

| 推理

| 量化
Read more量化：服务栈与硬件选择
量化：运行时与部署框架

量化 checkpoint 只有在 runtime 能把低比特格式、权重布局、KV cache、batching 和 kernel 路径接起来时，才会变成真实端到端收益。硬件和成本模型放在量化服务栈与硬件选择，底层 kernel 细节放在低精度与量化 Kernel。本页聚焦中间这层：低比特模型怎样被运行时可靠地加
2025-12-22
AI

>

量化
AI

| 部署与安全

| 量化
Read more量化：运行时与部署框架

1…9 101112 13…56