Paper Reading: Embodied AI 8

评分准则

平平无奇的论文

正常的论文

广受认可或者让我眼前一亮的论文

奠基性的论文或者我非常喜欢的论文

毋庸置疑的最棒的论文

Embodied AI Paper Reading

Pi0.6#

Arxiv ID 2511.14759

幻觉翻译 2511.14759

Reward-conditioned SFT 的 Pi-like VLA

The model architecture of Pi0.6

Pi0.6 算是 Pi 系列的新作，主要提出了所谓的 RL 框架，将成功率推上去了不少，算是在为 RL 目标的解决最后一公里做出了一些努力。然而同时有必要强调的是，Pi0.6 本质上并非 RL，而是 Reward-conditioned SFT。简答来说，如图中所示，Pi0.6 基于 VLM 训练了一个 Reward Model，之后使用这个 Reward Model 来对 SFT 的数据进行打标，之后全部的数据无论好坏都用来 SFT，只是模型的输入里面同时包括了 Observation 和 Reward。本身从直觉上理解，可以理解为模型会学习到，输入好的 Reward 的时候要输出好 Action，而输入坏的 Reward 的时候要输出坏 Action，因此在推理的时候将 Reward 写死一个好的常数，就可以有好的效果。论文中有一些内容证明了离散 Action 使用似然，加上 FM Loss，是整体动作似然的一个下界，从而也可以进行 RL 基于动作似然的优化。

从内容上来说，Pi0.6 算是令人满意，但是不如前作更加来的 solid。一些新加入的模块比较有效地让模型的性能提高，同时也在大规模的数据中进行了训练，算是中规中矩的好论文，对于正常 SFT 的模型来说是一个不错的参考，但是确实对于本质那套 online 的真机 RL 来说其实没有很大的参考价值。

推荐指数：

MergeVLA#

Arxiv ID 2511.18810

幻觉翻译 2511.18810

Merge LoRA 进行多任务学习的 Pi-like VLA

The pipeline of MergeVLA

MergeVLA 本身自己设计了模型结构，减去 self-attention 模块，并且把 tanh gate 改成 sigmoid gate，来让表征更加统一，从而对于 Action 这种不同 Task 之间可能有冲突的内容更加 Cross-task align。本身这些设计都是为了后续 Merge LoRA 做准备。本身对于很多的 Task 训练了很多的 LoRA 之后，可以通过若干 Merge 策略来整合，之后在推理的时候，使用一个 Mask 来选择性激活其中的部分参数，这个 Mask 由本来原生的 Task LoRA 和 Merged LoRA 的方向决定。然而对于 LoRA 相关的内容，问题是显然的，为什么要使用 LoRA 以及为什么要 Merge。毕竟事实上，目前大多数的 VLA 可以直接进行 Co-training，效果上也不错；而假如说我想要某一个 Task 的效果好，我直接训练这一个 Task 的 LoRA 就已经可以了，把不同的 Task 的 LoRA 混合在一起可以 Benefit 本身这一个 Task 的效果吗，论文中没有给出非常充分的解释。使用 LoRA merge 来进行一个类似于可持续学习的故事是说不通的，毕竟人间正道还是训练一个 co-training 基模，之后直接训练小 LoRA，对于多任务，直接手动 Route 加载对应 LoRA 就好。

推荐指数：

Compressor-VLA#

Arxiv ID 2511.18950

幻觉翻译 2511.18950

通过减少计算量和视觉token数量来提高 VLA 效率

The pipeline of Compressor-VLA

Compressor-VLA 本身目的就是削减 Vision Token 输入到类 OpenVLA 模型的数量，从而优化效率。本身通过一种 Language-condition 的方式来选择，且不说这样会不会损失细粒度信息，而只保留语义，从而带来可能得性能开销。这种方法似乎与 VLA 也没什么关系，放到任何模型都可以，思路也没什么意思。

推荐指数：

Robot-Powered Data Flywheels#

Arxiv ID 2511.19647

幻觉翻译 2511.19647

The pipeline of Robot-Powered Data Flywheels

本文提出机器人作为数据收集者而非仅消费基础模型的框架，在学术图书馆部署移动操作机器人Scanford两周，自主扫描书架并使用视觉-语言模型识别书籍。系统将书籍识别准确率从32.0%提升至71.8%，多语言OCR性能显著提高：英文从24.8%提升至46.6%，中文从30.8%提升至38.0%。该部署节省约18.7小时人工，收集了2103个书架的数据，展示了真实世界机器人部署如何创建良性循环，实用任务同时生成训练数据以增强特定领域和相关任务的模型性能。

推荐指数：

VIPA-VLA#

Arxiv ID 2512.13080

幻觉翻译 2512.13080

The architecture of VIPA-VLA

本文解决VLA模型中2D视觉感知与3D物理动作空间脱节的关键局限。研究者提出使用人类演示视频进行”视觉空间与物理空间显式对齐”的预训练方法。引入的VIPA-VLA是具有3D视觉处理能力的双编码器系统，改善了机器人策略如何将2D视觉观察锚定到3D空间推理中，以实现更具泛化性的机器人控制。

推荐指数：

DexWM#

Arxiv ID 2512.13644

幻觉翻译 2512.13644

The pipeline of DexWM

本文介绍DexWM世界模型，用于预测灵巧操作任务中的未来环境状态。系统利用超过900小时的人类和机器人视频进行训练，以解决灵巧数据集有限的问题。关键创新是辅助手部一致性损失，确保精确的手部配置超越标准视觉特征预测。部署在带抓手的机器人臂上时，DexWM表现出色，在抓取和到达等操作任务上平均性能超过Diffusion Policy 50%以上，即使没有任务特定训练。

推荐指数：

Openpi Comet#

Arxiv ID 2512.10071

幻觉翻译 2512.10071

The pipeline of Openpi Comet

Openpi Comet 是 2025 BEHAVIOR 挑战赛的亚军方案，基于 π₀.₅ 系统性研究了训练技术和数据效应对长时域机器人任务的影响。通过跨预训练和后训练阶段的消融研究展示了扩展效益，验证 Q-score 达到 0.345，显著超越此前的最先进性能。该工作为将基础模型适配到具身智能场景提供了实用经验，成功处理了涉及移动操作的日常家庭任务。

推荐指数：

Evaluating Gemini Robotics Policies in a Veo World Simulator#

Arxiv ID 2512.10675

幻觉翻译 2512.10675

The pipeline of Gemini Veo evaluation

该研究展示了如何利用生成式视频模型评估多场景下的机器人策略。基于 Veo 视频基础模型构建的评估系统支持机器人动作条件生成和多视角一致性，并通过图像编辑和补全技术实现真实场景变化。通过对 8 个 Gemini 机器人策略版本在 5 个双臂操作任务上进行超过 1,600 次真实世界评估，验证了该系统能够准确预测策略在标准和新颖条件下的相对性能。

推荐指数：

1st Place Solution for the 2025 BEHAVIOR Challenge#

Arxiv ID 2512.06951

幻觉翻译 2512.06951

The inpainting diagram of BEHAVIOR 1st Place

该研究提出的视觉-动作策略赢得了 2025 BEHAVIOR 挑战赛冠军，在 50 个家庭任务的光真实感仿真环境中接受评估。在 Pi0.5 框架基础上引入了多项技术改进，包括用于流匹配的相关噪声以提高训练效率和动作平滑度、可学习的混合层注意力、以及 System 2 阶段跟踪以消除歧义。该方法结合了训练时的多样本流匹配与推理时的动作压缩和任务特定校正规则，最终在所有评估任务上达到 26% 的 q-score。

推荐指数：

VideoVLA#

Arxiv ID 2512.06963

幻觉翻译 2512.06963

The overview of VideoVLA

VideoVLA 利用大型视频生成模型作为机器人学习系统的基础，解决机器人操作中的泛化挑战。该方法结合语言指令和图像来同时预测动作序列和预期的视觉结果，采用多模态扩散 Transformer 架构。关键发现表明高质量的想象未来与可靠的动作预测和任务成功相关，验证了视觉预测在机器人学习中的价值。系统展现出跨具身平台的技能迁移和处理未知物体的能力，提出了机器人系统双重预测策略的新范式。

推荐指数：

FASTer#

Arxiv ID 2512.04952

幻觉翻译 2512.04952

The pipeline of FASTer

FASTer 提出了一个提升机器人学习效率的框架，包含两个主要组件：FASTerVQ 将动作块编码为单通道图像以捕获全局时空依赖性并保持高压缩率，以及 FASTerVLA 引入块级解码以提升性能。该工作解决了机器人控制中的核心挑战：在动作标记化时平衡重建质量与推理速度。作者表示该方法在推理速度和任务性能上均超越了此前的最先进 VLA 模型，在仿真和真实世界机器人操作任务中展现出强大的泛化能力。

推荐指数：

Video2Act#

Arxiv ID 2512.03044

幻觉翻译 2512.03044

The framework of Video2Act

Video2Act 提出了一个双系统视频扩散策略框架，通过从视频帧中提取空间边界和运动信息来改进机器人策略学习。该方法采用慢速视频扩散模型与快速扩散变换器动作生成器的协同设计，使机器人能够在接收不频繁更新时仍保持稳定的操作任务。实验结果显示，相比现有方法在模拟环境中提升7.7%，在真实世界任务中提升21.7%的性能，并展现出强大的跨场景泛化能力。

推荐指数：

RoboWheel#

Arxiv ID 2512.02729

幻觉翻译 2512.02729

The pipeline of RoboWheel

RoboWheel 是一个数据引擎系统，能够将人类手-物交互视频转化为可用于不同机器人体态的训练数据。该方法从摄像头视频中重建手部运动，通过强化学习优化确保物理准确性，并将这些动作适配到从简单机械臂到灵巧手和人形机器人的各种机器人类型。研究证明生成的轨迹与遥操作一样稳定，为传统遥操作提供了一个仅需标准摄像头的轻量级替代方案。

推荐指数：

RealAppliance#

Arxiv ID 2512.00287

幻觉翻译 2512.00287

An appliance icon from RealAppliance

RealAppliance 解决了现有家电模拟缺乏真实性且与实际产品手册不符的问题，提供了包含100个具有精确物理和电子机制的详细家电数据集。该工作引入了一个基准测试，评估AI模型在手册页检索、家电部件定位、开环和闭环操作规划等任务上的性能。这项研究旨在缩小机器人系统在家电操作模拟与真实世界之间的差距。

推荐指数：

GR-RL#

Arxiv ID 2512.01801

幻觉翻译 2512.01801

A case study from GR-RL

GR-RL 提出了一个将通用视觉-语言-动作策略转化为复杂机器人任务专用系统的框架，通过强化学习对示范数据进行过滤、增强和强化，而非假设人类示范是最优的。该方法包括使用Q值作为进度指标过滤轨迹、应用形态对称增强以提高泛化能力，以及使用潜在空间噪声预测器进行在线强化学习。该框架实现了基于学习的策略自主系鞋带，成功率达83.3%，这是一项需要长时推理、毫米级精度和与可变形材料交互的复杂任务。

推荐指数：

ManualVLA#

Arxiv ID 2512.02013

幻觉翻译 2512.02013

The pipeline of ManualVLA

ManualVLA 针对视觉-语言-动作模型在处理需要精确规划和执行的长时程机器人任务时的局限性，提出了基于混合变换器架构的统一框架，能够生成包含图像、位置提示和文本指令的中间多模态”手册”。该系统包括规划专家从目标状态创建分步手册，以及基于3D高斯溅射的数字孪生工具包用于自动生成训练数据。在真实世界的乐高组装和物体重排任务中，ManualVLA 的平均成功率比之前的分层SOTA基线高32%。

推荐指数：

SwiftVLA#

Arxiv ID 2512.00903

幻觉翻译 2512.00903

The introduction of SwiftVLA

SwiftVLA 解决了视觉-语言-动作模型通常需要大量参数的问题，通过以最小开销增强轻量级模型的四维时空理解能力。该方法采用预训练的4D视觉几何变换器配合时间缓存，并引入用于未来预测训练的融合令牌，通过掩码-重建训练策略使4D分支在推理时可移除。SwiftVLA 在性能上匹配7倍参数规模的模型，同时推理速度提升18倍，在边缘设备上内存使用减少12倍。

推荐指数：

MM-ACT#

Arxiv ID 2512.00975

幻觉翻译 2512.00975

An example from MM-ACT

MM-ACT 提出了一个统一的视觉-语言-动作模型，将文本、图像和动作集成在共享令牌空间中，并使用并行解码策略跨所有三种模态生成。该系统引入了”上下文共享多模态学习”训练方法，从共享上下文监督所有模态的生成，通过跨模态学习改进动作生成。在LIBERO模拟中达到96.3%成功率，在真实Franka机器人任务中达到72.0%，在双臂RoboTwin2.0任务中达到52.38%，其中跨模态学习额外贡献了9.25%的性能提升。

推荐指数：

VLA-Arena#

Arxiv ID 2512.22539

幻觉翻译 2512.22539

The pipeline of VLA-Arena

本文提出了 VLA-Arena，一个用于评估视觉-语言-动作模型的开源基准框架，包含 170 个任务，分为安全、干扰、外推和长时序四大类别。该框架通过任务结构、语言指令和视觉观察三个维度进行结构化评估，并对语言和视觉扰动进行独立测试以验证模型鲁棒性。评估结果揭示了当前最先进模型的显著局限性：倾向于记忆而非泛化、鲁棒性不均衡、难以处理安全约束，且缺乏组合已学技能完成复杂多步骤任务的能力。

推荐指数：

Robo-Dopamine#

Arxiv ID 2512.23703

幻觉翻译 2512.23703

The pipeline of Robo-Dopamine

本文提出了 Dopamine-Reward，一种基于 3400 多小时数据训练的通用奖励模型，用于解决机器人强化学习中奖励函数设计的难题。该方法通过步进奖励离散化（Step-wise Reward Discretization）实现结构化理解，并通过多视角奖励融合（Multi-Perspective Reward Fusion）克服感知局限性，同时配套提出了 Dopamine-RL 策略学习框架，采用理论可靠的奖励塑形避免优化误导。实验结果显示，该系统在仅用单条专家轨迹适配新任务后，仅需 150 次在线推演（约 1 小时真实机器人交互）即可达到 95% 的成功率，且具有良好的跨任务泛化能力。

推荐指数：

Counterfactual VLA#

Arxiv ID 2512.24426

幻觉翻译 2512.24426

The pipeline of Counterfactual VLA

本文提出了 CF-VLA 框架，使自动驾驶系统能够通过反事实推理在执行前评估和调整计划动作，识别不安全行为。该方法首先生成总结驾驶意图的元动作（meta-actions），然后结合视觉上下文和元动作进行反事实推理，并通过 rollout-filter-label 流程从基线推演中挖掘挑战性场景进行高效训练。实验结果表明，CF-VLA 将轨迹精度提升了 17.6%，安全指标提升了 20.5%，且能够自适应地仅在困难驾驶场景中激活推理机制。

推荐指数：

VLA-RAIL#

Arxiv ID 2512.24673

幻觉翻译 2512.24673

The pipeline of VLA-RAIL

本文提出了 VLA-RAIL 框架，解决视觉-语言-动作模型在机器人执行中出现的抖动、停顿和卡顿问题，实现平滑、连续、高速的机器人运动。该框架采用异步操作机制，包含轨迹平滑器（Trajectory Smoother）和动作块融合器（Chunk Fuser）两大核心组件：前者使用多项式拟合消除单个动作块的噪声，后者在连续动作序列间保持位置、速度和加速度的连续性。在仿真和真实操作任务上的验证表明，VLA-RAIL 显著减少了运动抖动，提升了执行速度和任务完成率，是大规模部署 VLA 模型的关键基础设施。

推荐指数：

UniTacHand#

Arxiv ID 2512.21233

幻觉翻译 2512.21233

An overview of UniTacHand

本文提出了 UniTacHand，通过统一的空间-触觉表示实现从人手到机器人手的技能迁移，解决机器人灵巧操作中触觉数据收集成本高昂的问题。该方法使用 MANO 手部模型作为标准化框架，将人手（通过触觉手套）和机器人手的触觉信号投影到形态一致的 2D 表面空间，并通过对比学习将不同数据源对齐到共享潜在空间（仅需 10 分钟配对数据）。实验结果显示，该方法实现了从人类到真实机器人的零样本触觉策略迁移（即使对于未见物体），且结合人类和机器人训练数据时比仅用机器人数据更高效，为可扩展的灵巧操作触觉学习提供了新路径。

推荐指数：

RoboCade#

Arxiv ID 2512.21235

幻觉翻译 2512.21235

The pipeline of RoboCade

本文提出了 RoboCade，一个通过游戏化远程遥操作平台来扩展机器人演示数据收集的系统，通过排行榜、徽章和进度可视化等元素提升数据采集的参与度和可及性。在三个操作任务上的测试表明，使用游戏化数据训练的策略在标准任务上性能提升了 16-56%，用户研究证实新手用户认为游戏化界面的满意度比非游戏化版本高约 24%。该工作证明游戏化可以作为一种有效且可扩展的方法来收集演示数据集，同时保持用户参与度和积极性。

推荐指数：

StereoVLA#

Arxiv ID 2512.21970

幻觉翻译 2512.21970

The architecture of StereoVLA

本文提出 StereoVLA，通过引入立体视觉系统增强机器人视觉-语言-动作模型的空间感知能力。该方法设计了几何-语义特征提取模块，将双目视差的空间信息与单目语义理解相结合，并添加深度估计组件加速训练。实验表明该方法在动作预测性能上显著优于现有方法，且对相机位置扰动具有良好鲁棒性。

推荐指数：

Embodied AI Paper Reading

Pi0.6#

MergeVLA#

Compressor-VLA#

Robot-Powered Data Flywheels#

VIPA-VLA#

DexWM#

Openpi Comet#

Evaluating Gemini Robotics Policies in a Veo World Simulator#

1st Place Solution for the 2025 BEHAVIOR Challenge#

VideoVLA#

FASTer#

Video2Act#

RoboWheel#

RealAppliance#

GR-RL#

ManualVLA#

SwiftVLA#

MM-ACT#

VLA-Arena#

Robo-Dopamine#

Counterfactual VLA#

VLA-RAIL#

UniTacHand#

RoboCade#

StereoVLA#