Paper Reading: Embodied AI 10

评分准则

平平无奇的论文

正常的论文

广受认可或者让我眼前一亮的论文

奠基性的论文或者我非常喜欢的论文

毋庸置疑的最棒的论文

Embodied AI Paper Reading

ALOE#

Arxiv ID 2602.12691

幻觉翻译 2602.12691

Action chunk 级 TD Bootstrap 的 VLA Offline RL

ALOE 针对 VLA 常用的 action chunk 输出做 offline RL，核心是在 chunk 粒度做 TD bootstrap 而不是只看最终任务成败，credit assignment 更细。对做 VLA + RL 细调的同学是一个比较具体可参考的技术点。

推荐指数：

DM0#

Arxiv ID 2602.14974

幻觉翻译 2602.14974

统一 Manipulation + Navigation 的 VLA，真机数据不回传梯度给 VLM

DM0 主打 Manipulation + Navigation 统一训练：先在 Web 文本 + 驾驶 + 具身数据上做 VLM 预训，再挂一个 FM Action Expert，训具身数据时不让 action 的梯度回传到 VLM（同时 Web / 驾驶数据可以照常 fine-tune VLM）。思路和 TwinBrainVLA 的冻结左脑有异曲同工之处，但是是选择性梯度屏蔽而不是完全复制一份 VLM，实现上更经济。

推荐指数：

RynnBrain#

Arxiv ID 2602.14979

幻觉翻译 2602.14979

2B / 8B / 30B 的具身时空 VLM 基础模型

RynnBrain 是一个 open-source 具身时空 VLM 基础模型，提供 2B / 8B / 30B 三个档位，覆盖 ego 理解、空间时间定位、物理推理、物理感知规划四件事。属于 RoboBrain 2.5 / Thinker 同一类基础模型，多一个开源家族可以对比。

推荐指数：

FUTURE-VLA#

Arxiv ID 2602.15882

幻觉翻译 2602.15882

时序自适应压缩 + latent AR 的长程 VLA

FUTURE-VLA 把长程控制和未来预测统一到一个序列生成里，关键是时序自适应压缩（控制 multi-view history 的信息密度）和 latent 空间 AR 对齐。和 BagelVLA、Cosmos Policy 同类”视频 + 动作 joint generate”的思路，差异点在压缩策略。

推荐指数：

DreamZero#

Arxiv ID 2602.15922

幻觉翻译 2602.15922

绕开语义只靠视频 Diffusion 预测世界 + 动作的 World Action Model

DreamZero 比较激进，完全绕开 language 语义，只用视频 diffusion 作为 backbone 预测未来世界状态和动作，把视频当作世界演化的 dense representation。和 Cosmos Policy 同族但更彻底地去掉 VL 端，作为”Video-centric World Action Model”的观点派作品值得对比。

推荐指数：

EgoScale#

Arxiv ID 2602.16710

幻觉翻译 2602.16710

20K 小时 Ego 视频预训 + 两阶段迁移到 22DoF 灵巧手

EgoScale 用 20,854 小时带 action 标注的 ego 视频预训一个 VLA，再用轻量的人-机对齐 mid-training 迁到 22 DoF 灵巧手，54% 的成功率提升。规模和 Being-H0.5 一个量级，思路上也相近——Human as Foundation，只是 hand 结构上更极端。这条线已经逐步形成了”有数据就能上大模型灵巧手”的共识。

推荐指数：

What Matters for Simulation to Online Reinforcement Learning on Real Robots#

Arxiv ID 2602.20220

幻觉翻译 2602.20220

100 次真机 RL 跑出来的 Design Choice 经验总结

这一篇没有新算法，而是跑了 100 次真机 RL 实验（3 个平台），系统对比算法 / 系统各种 Design Choice 的影响。结论之一是”有些大家默认用的选项其实对真机训练有害”，另一些 standard practice 则稳定有效。类似系统的 empirical study 在领域里比较少但很有价值，做真机 RL 的团队可以直接当 cheat sheet 用。

推荐指数：

UniLACT#

Arxiv ID 2602.20231

幻觉翻译 2602.20231

RGB + Depth 统一 latent action 的预训

UniLACT 主要是把 depth 拉进 latent action 学习，通过 inverse / forward dynamics 对 RGB 和 depth 做联合表示。属于 latent action 预训这一条线的扩展，novelty 仅限于多了 depth 这一路。

推荐指数：

HALO#

Arxiv ID 2602.21157

幻觉翻译 2602.21157

文本 CoT / 视觉 subgoal / 动作三专家 MoT VLA

HALO 是 MoT 架构，把 textual reasoning、visual subgoal 预测、action 预测分给三个 expert。和 BagelVLA、FUTURE-VLA 等在思路上同质，差异是 expert 角色切分方式。

推荐指数：

WoG#

Arxiv ID 2602.22010

幻觉翻译 2602.22010

在 condition space 里做世界建模的 VLA

WoG 把未来观测压成 compact condition 注入到 action 推理里，走”不预测高维未来像素，而在 learned condition space 里做 WM”这条路子。和 VLA-JEPA、FRAPPE 的主旨是一致的，本质都是”latent-only WM 监督”。

推荐指数：

LeRobot#

Arxiv ID 2602.22818

幻觉翻译 2602.22818

HuggingFace 的机器人学习开源栈技术报告

LeRobot 是 HuggingFace 侧的开源机器人学习栈官方技术报告，覆盖从底层电机控制 middleware 到数据集采集 / 管理以及多种 SOTA 算法的集成。已经是社区里事实上的底座工具之一，不少论文的数据集和基线都是直接挂在 LeRobot 里，做 VLA / DP 入门也绕不过去，有这篇可以顺手读一下官方对其定位的整理。

推荐指数：

RMBench#

Arxiv ID 2603.01229

幻觉翻译 2603.01229

9 个任务的 Memory-dependent 操作 Benchmark

RMBench 专门针对”需要记忆”的操作任务（比如依赖早期观察的状态判断）构造 9 个任务，填补之前 VLA benchmark 基本不测 memory 的空白。同时放了一个 Mem-0 作参考策略。和 STaR、BPP 等长时记忆相关工作配合使用。

推荐指数：

$\pi$ -StepNFT#

Arxiv ID 2603.02083

幻觉翻译 2603.02083

无 critic、无 likelihood 的 FM VLA 在线 RL

π-StepNFT 做 Flow-Matching VLA 的在线 RL，不需要 critic、不需要显式 likelihood，用 step-wise negative-aware fine-tuning 细粒度地更新，每步只一次 forward。算是 π_RL 系列之外的另一种 FM VLA RL 方案，尤其适合 likelihood 难算的场景。

推荐指数：

ACE-Brain-0#

Arxiv ID 2603.03198

幻觉翻译 2603.03198

一统驾驶 / 机器人 / UAV 的空间智能基础模型

ACE-Brain-0 想一统驾驶 / 机器人 / UAV 三域，用 Scaffold-Specialize-Reconcile 三段式：先建共享空间 foundation，再训领域专家，最后无数据模型合并。Scope 很大，24 个 benchmark 都能跑，最终走模型合并主要是为了避免灾难性遗忘。

推荐指数：

HoMMI#

Arxiv ID 2603.03243

幻觉翻译 2603.03243

UMI + Ego 相机，Human demo 学全身移动操作

HoMMI 把 UMI 扩到 whole-body mobile manipulation，加 egocentric 相机、用 embodiment-agnostic 视觉表征 + relaxed head action + whole-body 控制器来跨越人-机 embodiment gap，不需要机器人在场就能采数据。和 HuMI、HumanX 是同一条线的不同切法，差异在 task scope（含导航和主动感知）。

推荐指数：

MEM#

Arxiv ID 2603.03596

幻觉翻译 2603.03596

短时视频记忆 + 长时文本记忆的多尺度具身记忆

MEM 用视频做短时记忆、文本做长时记忆，目标是支撑 10 分钟量级的长程任务（厨房清理、做三明治）。长程任务里 VLA 基本靠 memory 支撑，这种分 horizon 切模态的方式比单一 context window 更合理。

推荐指数：

SkillVLA#

Arxiv ID 2603.03836

幻觉翻译 2603.03836

双臂单臂技能可左右重组的 Skill 解耦 VLA

SkillVLA 关注双臂的 Skill Reuse 问题：传统训练里左右臂是绑死的，组合新 left-right pair 几乎全挂。论文通过解耦单臂技能避免跨臂 entangle，将组合成功率从 0 拉到 51%。这是一个挺实际的问题和清晰的解法。

推荐指数：

RoboCasa365#

Arxiv ID 2603.04356

幻觉翻译 2603.04356

365 家务任务 + 2500 厨房场景的大规模家用 Benchmark

RoboCasa365 把 RoboCasa 的规模再拉大：365 个家务任务 × 2500 厨房场景，配 600+ 小时人类演示和 1600+ 小时合成数据。对研究任务 diversity 与 policy scaling、lifelong learning 的人而言是一个 reproducible 的大型基准。

推荐指数：

UltraDexGrasp#

Arxiv ID 2603.05312

幻觉翻译 2603.05312

2000 万帧合成的双臂灵巧抓取数据集 + 零样本 sim2real

UltraDexGrasp 生成规模 2000 万帧的双臂灵巧抓取合成数据集，结合 optimization-based 合成和 planning-based demo 生成，训出来的策略零样本 sim2real 真机成功率 81.2%。双臂灵巧抓取大规模合成数据集目前还不多，有价值。

推荐指数：

AtomicVLA#

Arxiv ID 2603.07648

幻觉翻译 2603.07648

原子技能分解 + SG-MoE 的长程 VLA

AtomicVLA 把长程任务拆成 atomic skill，用 Skill-Guided MoE 让每个 expert 负责一个原子技能，新技能通过灵活 routing encoder 做 continual learning。属于 skill-based + MoE 这一类，和 Uni-Skill、SkillVLA 是同一趋势的变体。

推荐指数：

AtomVLA#

Arxiv ID 2603.08519

幻觉翻译 2603.08519

LLM 拆原子子任务 + 潜空间 WM 给 action chunk 打分的 GRPO

AtomVLA 和前面那篇 AtomicVLA 名字像但是路子完全不同。这里关心的是 VLA 训练时只见到粗粒度任务指令，长程任务上的中间监督信号缺失，错误会累积。做法是先用 LLM 把高层 demo 拆成一串原子子任务，再用一个预训的 latent world model 把候选 action chunk 投到 latent 空间和子任务目标做匹配打分，然后用 GRPO 做 offline post-training，绕开真机 / 仿真在线 rollout。本质上是用 latent WM 当 dense reward 实现 chunk 级 credit assignment，这一点比 ALOE 那种 chunk-TD 的思路又往前推了一步——奖励信号不是任务终点而是子任务对齐度。

LIBERO 上 97% 但是 LIBERO-PRO 上掉到 48% 已经把 limitation 写在脸上：所谓 atomic 拆解依赖 LLM，LIBERO-PRO 这种带扰动的版本上一旦 LLM 的拆解和实际 trajectory 对不上，subtask reward 就会失真。整体方向是 VLA RL 里值得跟一下的”子任务 reward shaping”流派，但是 LLM 拆解的鲁棒性是这条路绕不过的瓶颈。

推荐指数：

PlayWorld#

Arxiv ID 2603.09030

幻觉翻译 2603.09030

机器人自主"play"采集 + 课程学习训接触丰富 World Model

PlayWorld 的核心 insight 是大多数 Video / Action WM 都训在人类 demo 上，而 demo 几乎都是成功轨迹，contact 失败、滑掉、碰撞这些 long-tail 动力学覆盖率极低，于是模型一旦遇到接触场景就 hallucinate。论文的解法是”让机器人自己玩”：VLM 当 task proposer 自动生成自然语言指令，VLA 当 executor 在真机/仿真里跑出 30+ 小时无监督交互数据，天然包含失败模式。然后用 SVD 作为视频骨干，结合一种”distance-to-success”的课程：从冻结 CLIP embedding 抽人类 demo 的成功 centroid，按和这些 centroid 的距离把 play 轨迹分成由易到难的若干 rank，再渐进式调整采样分布，让模型先学 free-space 转移再学 contact-rich 转移。

和 Cosmos Policy / DreamZero / World-VLA-Loop 这种以”video diffusion 大基模 + scale data”为路线的 WM 工作相比，PlayWorld 的差异化是非常具体的：不靠 human supervision，不靠 reward-driven exploration，直接靠 play 自动覆盖失败分布；并且专门构造了一个 500+ clip 的 interaction-centric 评测集，把 missed grasp / slip / deformation 这些失败类型明确标出。在这个评测上 18 个不同策略的 predicted-vs-real success 相关性能到 0.88，作为 policy evaluator 比之前的通用 video WM 实用得多，下游用 DSRL 配合冻结骨干微调直接拿 65% 的提升。

主要 Limitation 论文自己提了：仍然不能彻底消 hallucination，在 open-loop rollout 长 horizon 下 control mode 不一致还是会累积错误；以及目前都是受控实验室设定，跨场景 / 跨 embodiment 怎么平衡 play 数据没解决。这两个问题不解决，“WM as evaluator”距离真正取代真机评测还有距离。整体是这一波 WM-VLA 工作里相对少见地把”训练数据分布偏置”作为根因来攻的，方向值得跟。

推荐指数：

DexHiL#

Arxiv ID 2603.09121

幻觉翻译 2603.09121

HIL DAgger 协同纠正"臂 + 灵巧手"的灵巧操作微调

DexHiL 的关心点是：HG-DAgger / HIL-SERL / Sirius 这些 HIL 方法都只对 parallel gripper 工作，DexGrasp-VLA 这类做了灵巧手但是把手单独拉出来用一个独立 grasping 网络，arm 和 hand 是分开纠正的。DexHiL 把”臂 + 灵巧手”作为一个整体系统在 DAgger loop 里同时接受人类干预。具体做法是 ArUco 标记追踪 + 动捕手套混合的轻量 teleop 接口（policy 跑 20Hz、teleop 30-90Hz 异步），手部 retarget 走两阶段——先非拇指四指反 pinch-like 姿态、再加 thumb residual + 几何正则；训练上用 intervention-aware reweighting 把 50% 的 batch 集中在干预样本上，并且只保留干预后的 recovery 段（不要纠正过程那段）。Ablation 显示主要 driver 就是这个 reweighting，不只是数据量增加。

最大的 Limitation 是 scalability：DAgger loop 本质上要求人类持续在线，论文 claim 的 35% 人力降低相对的还是 HIL 流程，绝对的人力门槛仍然很高，不适合大规模扩展。但是在”既要 dex hand 又要在线纠错”这个设定下，DexHiL 把 arm + hand 真正联合起来在 HIL 框架里这一点是直接而合理的。

推荐指数：

CORAL#

Arxiv ID 2603.09298

幻觉翻译 2603.09298

冻结基模 + 每任务一个 LoRA + 语言决定路由的多任务 VLA

CORAL 做的就是 EAI8 在批 MergeVLA 时讲的那个”人间正道”的具体实现：先把 embodiment-aware 基模训好然后整体冻结，每个新任务再训一个 r=16 的小 LoRA（VLM encoder 和 action head 的 attention 都注），推理的时候直接根据 language instruction 决定加载哪个 LoRA，整个 routing 是 deterministic 的没有 learned gating，loaded LoRA 还会被 fold 进底模权重所以 zero FLOPs overhead。这条路对比 MoRE / HiMoE-VLA 这种 learned-gating MoE 的 VLA 是更干净的取舍，对比 MergeVLA 那种把 LoRA 互相 merge 的故事则更直接——既然多任务有冲突，那就 parameter-level isolation，不要硬 merge。

但是论文自己也点出了真正的核心问题：CORAL 只做了参数级隔离，feature representation 仍然来自共享冻结骨干，语义 / 视觉冲突在表征层并没有被解决。等到任务数量上百、底模又没在足够 diverse 的数据上预训过，per-task LoRA 拼不出来的时候，瓶颈就会暴露在底模本身，而不是在路由策略上。换句话说 CORAL 是”在底模够强的前提下”才成立的方案。

推荐指数：

DiT4DiT#

Arxiv ID 2603.10448

幻觉翻译 2603.10448

抽 Video DiT 中间 denoising 特征作为 Action DiT 条件的双 DiT VLA

DiT4DiT 是 Video WM + VLA 这条线的又一变体，差异化点在”不取最终生成帧、而是取 video DiT denoising 中间步的 hidden feature 作为 Action DiT 的条件”。具体是 Cosmos-Predict2.5-2B 当 Video DiT、GR00T-N1 当 Action DiT，跨注意力把 video 特征和 robot state 喂给 action 端。训练上有个 Tri-Timestep 设计：video 用全程均匀 timestep、特征抽取固定在某个 deterministic timestep（保证条件稳定）、action 用 Beta 分布偏向关键控制阶段，三个时间轴解耦。

和 Cosmos Policy “直接拿视频模型当策略 + 把 action encode 成 latent frame”的极简思路相比，DiT4DiT 走了相反方向——保留独立的 Action DiT，但是让它去吃 video DiT 中间状态。问题是消融里揭示这个方案”对 denoising step 数极其敏感”，性能随中间抽取步数变化是单调掉，部署时 A100 上只剩 6Hz（GR00T 同条件 13Hz）。换言之这个 mid-denoising feature 的 trick 一旦超出训练时设定的窄区域就不稳，是 design choice 自带的脆性，而不是工程没调好。

推荐指数：

Embodied AI Paper Reading

ALOE#

DM0#

RynnBrain#

FUTURE-VLA#

DreamZero#

EgoScale#

What Matters for Simulation to Online Reinforcement Learning on Real Robots#

UniLACT#

HALO#

WoG#

LeRobot#

RMBench#

π\piπ-StepNFT#

ACE-Brain-0#

HoMMI#

MEM#

SkillVLA#

RoboCasa365#

UltraDexGrasp#

AtomicVLA#

AtomVLA#

PlayWorld#

DexHiL#

CORAL#

DiT4DiT#

$\pi$ -StepNFT#