Axi's Blog
Paper Reading: Embodied AI 10Blur image
评分准则
平平无奇的论文
正常的论文
广受认可或者让我眼前一亮的论文
奠基性的论文或者我非常喜欢的论文
毋庸置疑的最棒的论文

ALOE#

Arxiv ID 2602.12691
幻觉翻译 2602.12691

Action chunk 级 TD Bootstrap 的 VLA Offline RL

ALOE 针对 VLA 常用的 action chunk 输出做 offline RL,核心是在 chunk 粒度做 TD bootstrap 而不是只看最终任务成败,credit assignment 更细。对做 VLA + RL 细调的同学是一个比较具体可参考的技术点。

推荐指数:

DM0#

Arxiv ID 2602.14974
幻觉翻译 2602.14974

统一 Manipulation + Navigation 的 VLA,真机数据不回传梯度给 VLM

DM0 主打 Manipulation + Navigation 统一训练:先在 Web 文本 + 驾驶 + 具身数据上做 VLM 预训,再挂一个 FM Action Expert,训具身数据时不让 action 的梯度回传到 VLM(同时 Web / 驾驶数据可以照常 fine-tune VLM)。思路和 TwinBrainVLA 的冻结左脑有异曲同工之处,但是是选择性梯度屏蔽而不是完全复制一份 VLM,实现上更经济。

推荐指数:

RynnBrain#

Arxiv ID 2602.14979
幻觉翻译 2602.14979

2B / 8B / 30B 的具身时空 VLM 基础模型

RynnBrain 是一个 open-source 具身时空 VLM 基础模型,提供 2B / 8B / 30B 三个档位,覆盖 ego 理解、空间时间定位、物理推理、物理感知规划四件事。属于 RoboBrain 2.5 / Thinker 同一类基础模型,多一个开源家族可以对比。

推荐指数:

FUTURE-VLA#

Arxiv ID 2602.15882
幻觉翻译 2602.15882

时序自适应压缩 + latent AR 的长程 VLA

FUTURE-VLA 把长程控制和未来预测统一到一个序列生成里,关键是时序自适应压缩(控制 multi-view history 的信息密度)和 latent 空间 AR 对齐。和 BagelVLA、Cosmos Policy 同类”视频 + 动作 joint generate”的思路,差异点在压缩策略。

推荐指数:

DreamZero#

Arxiv ID 2602.15922
幻觉翻译 2602.15922

绕开语义只靠视频 Diffusion 预测世界 + 动作的 World Action Model

DreamZero 比较激进,完全绕开 language 语义,只用视频 diffusion 作为 backbone 预测未来世界状态和动作,把视频当作世界演化的 dense representation。和 Cosmos Policy 同族但更彻底地去掉 VL 端,作为”Video-centric World Action Model”的观点派作品值得对比。

推荐指数:

EgoScale#

Arxiv ID 2602.16710
幻觉翻译 2602.16710

20K 小时 Ego 视频预训 + 两阶段迁移到 22DoF 灵巧手

EgoScale 用 20,854 小时带 action 标注的 ego 视频预训一个 VLA,再用轻量的人-机对齐 mid-training 迁到 22 DoF 灵巧手,54% 的成功率提升。规模和 Being-H0.5 一个量级,思路上也相近——Human as Foundation,只是 hand 结构上更极端。这条线已经逐步形成了”有数据就能上大模型灵巧手”的共识。

推荐指数:

What Matters for Simulation to Online Reinforcement Learning on Real Robots#

Arxiv ID 2602.20220
幻觉翻译 2602.20220

100 次真机 RL 跑出来的 Design Choice 经验总结

这一篇没有新算法,而是跑了 100 次真机 RL 实验(3 个平台),系统对比算法 / 系统各种 Design Choice 的影响。结论之一是”有些大家默认用的选项其实对真机训练有害”,另一些 standard practice 则稳定有效。类似系统的 empirical study 在领域里比较少但很有价值,做真机 RL 的团队可以直接当 cheat sheet 用。

推荐指数:

UniLACT#

Arxiv ID 2602.20231
幻觉翻译 2602.20231

RGB + Depth 统一 latent action 的预训

UniLACT 主要是把 depth 拉进 latent action 学习,通过 inverse / forward dynamics 对 RGB 和 depth 做联合表示。属于 latent action 预训这一条线的扩展,novelty 仅限于多了 depth 这一路。

推荐指数:

HALO#

Arxiv ID 2602.21157
幻觉翻译 2602.21157

文本 CoT / 视觉 subgoal / 动作三专家 MoT VLA

HALO 是 MoT 架构,把 textual reasoning、visual subgoal 预测、action 预测分给三个 expert。和 BagelVLA、FUTURE-VLA 等在思路上同质,差异是 expert 角色切分方式。

推荐指数:

WoG#

Arxiv ID 2602.22010
幻觉翻译 2602.22010

在 condition space 里做世界建模的 VLA

WoG 把未来观测压成 compact condition 注入到 action 推理里,走”不预测高维未来像素,而在 learned condition space 里做 WM”这条路子。和 VLA-JEPA、FRAPPE 的主旨是一致的,本质都是”latent-only WM 监督”。

推荐指数:

LeRobot#

Arxiv ID 2602.22818
幻觉翻译 2602.22818

HuggingFace 的机器人学习开源栈技术报告

LeRobot 是 HuggingFace 侧的开源机器人学习栈官方技术报告,覆盖从底层电机控制 middleware 到数据集采集 / 管理以及多种 SOTA 算法的集成。已经是社区里事实上的底座工具之一,不少论文的数据集和基线都是直接挂在 LeRobot 里,做 VLA / DP 入门也绕不过去,有这篇可以顺手读一下官方对其定位的整理。

推荐指数:

RMBench#

Arxiv ID 2603.01229
幻觉翻译 2603.01229

9 个任务的 Memory-dependent 操作 Benchmark

RMBench 专门针对”需要记忆”的操作任务(比如依赖早期观察的状态判断)构造 9 个任务,填补之前 VLA benchmark 基本不测 memory 的空白。同时放了一个 Mem-0 作参考策略。和 STaR、BPP 等长时记忆相关工作配合使用。

推荐指数:

π\pi-StepNFT#

Arxiv ID 2603.02083
幻觉翻译 2603.02083

无 critic、无 likelihood 的 FM VLA 在线 RL

π-StepNFT 做 Flow-Matching VLA 的在线 RL,不需要 critic、不需要显式 likelihood,用 step-wise negative-aware fine-tuning 细粒度地更新,每步只一次 forward。算是 π_RL 系列之外的另一种 FM VLA RL 方案,尤其适合 likelihood 难算的场景。

推荐指数:

ACE-Brain-0#

Arxiv ID 2603.03198
幻觉翻译 2603.03198

一统驾驶 / 机器人 / UAV 的空间智能基础模型

ACE-Brain-0 想一统驾驶 / 机器人 / UAV 三域,用 Scaffold-Specialize-Reconcile 三段式:先建共享空间 foundation,再训领域专家,最后无数据模型合并。Scope 很大,24 个 benchmark 都能跑,最终走模型合并主要是为了避免灾难性遗忘。

推荐指数:

HoMMI#

Arxiv ID 2603.03243
幻觉翻译 2603.03243

UMI + Ego 相机,Human demo 学全身移动操作

HoMMI 把 UMI 扩到 whole-body mobile manipulation,加 egocentric 相机、用 embodiment-agnostic 视觉表征 + relaxed head action + whole-body 控制器来跨越人-机 embodiment gap,不需要机器人在场就能采数据。和 HuMI、HumanX 是同一条线的不同切法,差异在 task scope(含导航和主动感知)。

推荐指数:

MEM#

Arxiv ID 2603.03596
幻觉翻译 2603.03596

短时视频记忆 + 长时文本记忆的多尺度具身记忆

MEM 用视频做短时记忆、文本做长时记忆,目标是支撑 10 分钟量级的长程任务(厨房清理、做三明治)。长程任务里 VLA 基本靠 memory 支撑,这种分 horizon 切模态的方式比单一 context window 更合理。

推荐指数:

SkillVLA#

Arxiv ID 2603.03836
幻觉翻译 2603.03836

双臂单臂技能可左右重组的 Skill 解耦 VLA

SkillVLA 关注双臂的 Skill Reuse 问题:传统训练里左右臂是绑死的,组合新 left-right pair 几乎全挂。论文通过解耦单臂技能避免跨臂 entangle,将组合成功率从 0 拉到 51%。这是一个挺实际的问题和清晰的解法。

推荐指数:

RoboCasa365#

Arxiv ID 2603.04356
幻觉翻译 2603.04356

365 家务任务 + 2500 厨房场景的大规模家用 Benchmark

RoboCasa365 把 RoboCasa 的规模再拉大:365 个家务任务 × 2500 厨房场景,配 600+ 小时人类演示和 1600+ 小时合成数据。对研究任务 diversity 与 policy scaling、lifelong learning 的人而言是一个 reproducible 的大型基准。

推荐指数:

UltraDexGrasp#

Arxiv ID 2603.05312
幻觉翻译 2603.05312

2000 万帧合成的双臂灵巧抓取数据集 + 零样本 sim2real

UltraDexGrasp 生成规模 2000 万帧的双臂灵巧抓取合成数据集,结合 optimization-based 合成和 planning-based demo 生成,训出来的策略零样本 sim2real 真机成功率 81.2%。双臂灵巧抓取大规模合成数据集目前还不多,有价值。

推荐指数:

AtomicVLA#

Arxiv ID 2603.07648
幻觉翻译 2603.07648

原子技能分解 + SG-MoE 的长程 VLA

AtomicVLA 把长程任务拆成 atomic skill,用 Skill-Guided MoE 让每个 expert 负责一个原子技能,新技能通过灵活 routing encoder 做 continual learning。属于 skill-based + MoE 这一类,和 Uni-Skill、SkillVLA 是同一趋势的变体。

推荐指数:

AtomVLA#

Arxiv ID 2603.08519
幻觉翻译 2603.08519

LLM 拆原子子任务 + 潜空间 WM 给 action chunk 打分的 GRPO

AtomVLA 和前面那篇 AtomicVLA 名字像但是路子完全不同。这里关心的是 VLA 训练时只见到粗粒度任务指令,长程任务上的中间监督信号缺失,错误会累积。做法是先用 LLM 把高层 demo 拆成一串原子子任务,再用一个预训的 latent world model 把候选 action chunk 投到 latent 空间和子任务目标做匹配打分,然后用 GRPO 做 offline post-training,绕开真机 / 仿真在线 rollout。本质上是用 latent WM 当 dense reward 实现 chunk 级 credit assignment,这一点比 ALOE 那种 chunk-TD 的思路又往前推了一步——奖励信号不是任务终点而是子任务对齐度。

LIBERO 上 97% 但是 LIBERO-PRO 上掉到 48% 已经把 limitation 写在脸上:所谓 atomic 拆解依赖 LLM,LIBERO-PRO 这种带扰动的版本上一旦 LLM 的拆解和实际 trajectory 对不上,subtask reward 就会失真。整体方向是 VLA RL 里值得跟一下的”子任务 reward shaping”流派,但是 LLM 拆解的鲁棒性是这条路绕不过的瓶颈。

推荐指数:

PlayWorld#

Arxiv ID 2603.09030
幻觉翻译 2603.09030

机器人自主"play"采集 + 课程学习训接触丰富 World Model

PlayWorld 的核心 insight 是大多数 Video / Action WM 都训在人类 demo 上,而 demo 几乎都是成功轨迹,contact 失败、滑掉、碰撞这些 long-tail 动力学覆盖率极低,于是模型一旦遇到接触场景就 hallucinate。论文的解法是”让机器人自己玩”:VLM 当 task proposer 自动生成自然语言指令,VLA 当 executor 在真机/仿真里跑出 30+ 小时无监督交互数据,天然包含失败模式。然后用 SVD 作为视频骨干,结合一种”distance-to-success”的课程:从冻结 CLIP embedding 抽人类 demo 的成功 centroid,按和这些 centroid 的距离把 play 轨迹分成由易到难的若干 rank,再渐进式调整采样分布,让模型先学 free-space 转移再学 contact-rich 转移。

和 Cosmos Policy / DreamZero / World-VLA-Loop 这种以”video diffusion 大基模 + scale data”为路线的 WM 工作相比,PlayWorld 的差异化是非常具体的:不靠 human supervision,不靠 reward-driven exploration,直接靠 play 自动覆盖失败分布;并且专门构造了一个 500+ clip 的 interaction-centric 评测集,把 missed grasp / slip / deformation 这些失败类型明确标出。在这个评测上 18 个不同策略的 predicted-vs-real success 相关性能到 0.88,作为 policy evaluator 比之前的通用 video WM 实用得多,下游用 DSRL 配合冻结骨干微调直接拿 65% 的提升。

主要 Limitation 论文自己提了:仍然不能彻底消 hallucination,在 open-loop rollout 长 horizon 下 control mode 不一致还是会累积错误;以及目前都是受控实验室设定,跨场景 / 跨 embodiment 怎么平衡 play 数据没解决。这两个问题不解决,“WM as evaluator”距离真正取代真机评测还有距离。整体是这一波 WM-VLA 工作里相对少见地把”训练数据分布偏置”作为根因来攻的,方向值得跟。

推荐指数:

DexHiL#

Arxiv ID 2603.09121
幻觉翻译 2603.09121

HIL DAgger 协同纠正"臂 + 灵巧手"的灵巧操作微调

DexHiL 的关心点是:HG-DAgger / HIL-SERL / Sirius 这些 HIL 方法都只对 parallel gripper 工作,DexGrasp-VLA 这类做了灵巧手但是把手单独拉出来用一个独立 grasping 网络,arm 和 hand 是分开纠正的。DexHiL 把”臂 + 灵巧手”作为一个整体系统在 DAgger loop 里同时接受人类干预。具体做法是 ArUco 标记追踪 + 动捕手套混合的轻量 teleop 接口(policy 跑 20Hz、teleop 30-90Hz 异步),手部 retarget 走两阶段——先非拇指四指反 pinch-like 姿态、再加 thumb residual + 几何正则;训练上用 intervention-aware reweighting 把 50% 的 batch 集中在干预样本上,并且只保留干预后的 recovery 段(不要纠正过程那段)。Ablation 显示主要 driver 就是这个 reweighting,不只是数据量增加。

最大的 Limitation 是 scalability:DAgger loop 本质上要求人类持续在线,论文 claim 的 35% 人力降低相对的还是 HIL 流程,绝对的人力门槛仍然很高,不适合大规模扩展。但是在”既要 dex hand 又要在线纠错”这个设定下,DexHiL 把 arm + hand 真正联合起来在 HIL 框架里这一点是直接而合理的。

推荐指数:

CORAL#

Arxiv ID 2603.09298
幻觉翻译 2603.09298

冻结基模 + 每任务一个 LoRA + 语言决定路由的多任务 VLA

CORAL 做的就是 EAI8 在批 MergeVLA 时讲的那个”人间正道”的具体实现:先把 embodiment-aware 基模训好然后整体冻结,每个新任务再训一个 r=16 的小 LoRA(VLM encoder 和 action head 的 attention 都注),推理的时候直接根据 language instruction 决定加载哪个 LoRA,整个 routing 是 deterministic 的没有 learned gating,loaded LoRA 还会被 fold 进底模权重所以 zero FLOPs overhead。这条路对比 MoRE / HiMoE-VLA 这种 learned-gating MoE 的 VLA 是更干净的取舍,对比 MergeVLA 那种把 LoRA 互相 merge 的故事则更直接——既然多任务有冲突,那就 parameter-level isolation,不要硬 merge。

但是论文自己也点出了真正的核心问题:CORAL 只做了参数级隔离,feature representation 仍然来自共享冻结骨干,语义 / 视觉冲突在表征层并没有被解决。等到任务数量上百、底模又没在足够 diverse 的数据上预训过,per-task LoRA 拼不出来的时候,瓶颈就会暴露在底模本身,而不是在路由策略上。换句话说 CORAL 是”在底模够强的前提下”才成立的方案。

推荐指数:

DiT4DiT#

Arxiv ID 2603.10448
幻觉翻译 2603.10448

抽 Video DiT 中间 denoising 特征作为 Action DiT 条件的双 DiT VLA

DiT4DiT 是 Video WM + VLA 这条线的又一变体,差异化点在”不取最终生成帧、而是取 video DiT denoising 中间步的 hidden feature 作为 Action DiT 的条件”。具体是 Cosmos-Predict2.5-2B 当 Video DiT、GR00T-N1 当 Action DiT,跨注意力把 video 特征和 robot state 喂给 action 端。训练上有个 Tri-Timestep 设计:video 用全程均匀 timestep、特征抽取固定在某个 deterministic timestep(保证条件稳定)、action 用 Beta 分布偏向关键控制阶段,三个时间轴解耦。

和 Cosmos Policy “直接拿视频模型当策略 + 把 action encode 成 latent frame”的极简思路相比,DiT4DiT 走了相反方向——保留独立的 Action DiT,但是让它去吃 video DiT 中间状态。问题是消融里揭示这个方案”对 denoising step 数极其敏感”,性能随中间抽取步数变化是单调掉,部署时 A100 上只剩 6Hz(GR00T 同条件 13Hz)。换言之这个 mid-denoising feature 的 trick 一旦超出训练时设定的窄区域就不稳,是 design choice 自带的脆性,而不是工程没调好。

推荐指数:
Paper Reading: Embodied AI 10
https://axi404.github.io/blog/paper-reading-eai10
Author 阿汐
Published at February 5, 2026
Comment seems to stuck. Try to refresh?✨