下载客户端

在机器人顶会RSS 2024上，中国的人形机器人研究斩获最佳论文奖

2024-07-22 16:55

来源：澎湃新闻·澎湃号·湃客

机器之心报道

机器之心编辑部

近日，机器人领域著名会议 RSS（Robotics: Science and Systems） 2024 在荷兰代尔夫特理工大学圆满落幕。

尽管会议规模与 NeurIPS、CVPR 等 AI 顶会无法比肩，但 RSS 在过去几年中取得了长足的发展，今年的参会人数接近 900 人。

在大会的最后一天，最佳论文、最佳学生论文、最佳系统论文、最佳 Demo 论文等多个奖项同时出炉。此外，大会还评选出了「早期职业 Spotlight 奖」和「时间检验奖」。

值得注意的是，来自清华大学和北京星动纪元科技有限公司的人形机器人研究获得了最佳论文奖，华人学者 Ji Zhang 获得了本次时间检验奖。

以下是获奖论文信息介绍：

最佳 Demo 论文奖

论文标题：Demonstrating CropFollow++: Robust Under-Canopy Navigation with Keypoints

作者：Arun Narenthiran Sivakumar, Mateus Valverde Gasparino, Michael McGuire, Vitor Akihiro Hisano Higuti, M. Ugur Akcal, Girish Chowdhary

机构：UIUC、Earth Sense

论文链接：https://enriquecoronadozu.github.io/rssproceedings2024/rss20/p023.pdf

在这篇论文中，研究者提出了一种基于经验的鲁棒性视觉导航系统，用于使用语义关键点的作物冠下农业机器人。

由于作物行间距较小（∼ 0.75 米）、多径误差导致 RTK-GPS 精度下降以及杂波过多导致激光雷达测量产生噪声，作物冠下的自主导航具有挑战性。早期名为 CropFollow 的工作通过提出一种基于学习的端到端感知视觉导航系统来应对这些挑战。然而，这种方法存在以下局限性：缺乏可解释的表征，以及由于置信度不够缺乏在遮挡期间对离群预测的敏感性。

本文系统 CropFollow++ 引入了模块化感知架构和学习的语义关键点表示法。与 CropFollow 相比，CropFollow++ 的模块化程度更高、可解释性更强，并提供了检测闭塞的置信度。CropFollow++ 在具有挑战性的晚季田间测试中的表现明显优于 CropFollow，每个田间测试跨度达 1.9 千米，所需的碰撞次数为 13 次对 33 次。研究者还在不同的田间条件下，将 CropFollow++ 大规模部署在多个作物冠下覆盖作物种植机器人中（总长 25 公里），并讨论了从中汲取的主要经验教训。

论文标题：Demonstrating Agile Flight from Pixels without State Estimation

作者：smail Geles, Leonard Bauersfeld, Angel Romero, Jiaxu Xing, Davide Scaramuzza

论文链接：https://enriquecoronadozu.github.io/rssproceedings2024/rss20/p082.pdf

四旋翼无人机是最敏捷的飞行机器人之一。尽管最近的一些研究在基于学习的控制和计算机视觉方面取得了进步，但自主无人机仍然依赖于明确的状态估计。另一方面，人类飞行员只能依靠无人机机载摄像头提供的第一人称视角的视频流将平台推向极限，并在看不见的环境中稳健飞行。

本文展示了首个基于视觉的四旋翼无人机系统，该系统可在直接将像素映射到控制指令的同时，自主高速通过一连串门。与专业的无人机赛车手一样，该系统不使用明确的状态估计，而是利用与人类相同的控制指令（集体推力和身体速率）。研究者展示了速度高达 40km/h 且加速度高达 2g 的敏捷飞行。这是通过强化学习（RL）训练基于视觉的策略实现的。使用非对称的 Actor-Critic 可以获取特权信息，为训练提供便利。为了克服基于图像的 RL 训练过程中的计算复杂性，研究者使用门的内边缘作为传感器抽象。在训练过程中，无需渲染图像就能模拟这种简单而强大的任务相关表示法。在部署过程中，研究者使用了基于 Swin Transformer 的门检测器。

本文方法可以利用标准的、现成的硬件实现自主敏捷飞行。虽然演示侧重于无人机竞赛，但该方法的影响已经超出了竞赛范围，可以作为未来研究结构化环境中真实世界应用的基础。

最佳系统论文奖

论文标题：Universal Manipulation Interface: In-The-Wild Robot Teaching Without In-The-Wild Robots

Cheng Chi, Zhenjia Xu, Chuer Pan, Eric Cousineau, Benjamin Burchfiel, Siyuan Feng, Russ Tedrake, Shuran Song

机构：斯坦福大学、哥伦比亚大学、丰田研究院

论文链接：https://arxiv.org/pdf/2402.10329

本文介绍了通用操纵界面（UMI），一种数据收集和策略学习框架，可将野外人类演示的技能直接转移到可部署的机器人策略中。UMI 采用手持式抓手和精心的界面设计，可为具有挑战性的双臂和动态操纵演示提供便携式、低成本和信息丰富的数据收集。为了促进可部署的策略学习，UMI 采用了精心设计的策略界面，具有推理时间延迟匹配和相对轨迹动作表示功能。学习到的策略与硬件无关，可在多个机器人平台上部署。有了这些功能，UMI 框架就能释放新的机器人操纵能力，只需改变每个任务的训练数据，就能实现零样本泛化动态、双臂、精确和长视野行为。研究者通过全面的真实世界实验证明了 UMI 的多功能性和有效性，在这些实验中，通过 UMI 零射频学习到的策略在不同的人类演示训练中可泛化到新的环境和物体。

论文标题：Khronos: A Unified Approach for Spatio-Temporal Metric-Semantic SLAM in Dynamic Environments

作者：Lukas Schmid, Marcus Abate, Yun Chang, Luca Carlone

论文链接：https://arxiv.org/pdf/2402.13817

感知和理解高度动态和不断变化的环境是机器人自主性的关键能力。虽然在开发能准确估计机器人姿态的动态 SLAM 方法方面取得了长足进步，但在构建密集的机器人环境时空表征方面却重视不够。详细了解场景及其随时间的演变对于机器人的长期自主性至关重要，对于需要长期推理的任务也至关重要，例如在与人类和其他 Agent 共享的环境中有效运行，因此会受到短期和长期动态变化的影响。

为了应对这一挑战，这项研究定义了时空度量 - 语义 SLAM（SMS）问题，并提出了一个有效分解和解决该问题的框架。研究表明，所提出的因子化建议了一种时空感知系统的自然组织形式，其中一个快速进程跟踪活动时间窗口中的短期动态，而另一个慢速进程则利用因子图表述对环境中的长期变化进行推理。研究者提供了一种高效的时空感知方法 Khronos，并证明它统一了对短期和长期动态的现有解释，能够实时构建密集的时空地图。

论文提供的模拟和实际结果表明，Khronos 构建的时空地图能够准确反映三维场景的时间变化，而且 Khronos 在多个指标上都优于基线。

最佳学生论文奖

论文标题：Dynamic On-Palm Manipulation via Controlled Sliding

作者：William Yang, Michael Posa

机构：宾夕法尼亚大学

论文链接：https://arxiv.org/pdf/2405.08731

当前，对机器人执行非抓取性动作的研究主要集中在静态接触上，以规避滑动可能带来的问题。但是，如果根本上消除了「手滑」的问题，即能控制接触时的滑动，这将为机器人能做的动作开辟新领域。

在这篇论文中，研究者提出了一项挑战性的动态非抓取操作任务，该任务需要综合考虑各种混合接触模式。研究者采用了最新的隐式接触模型预测控制（MPC）技术，帮助机器人进行多模式规划，以完成各项任务。论文详细探讨了如何将用于 MPC 的简化模型与低级跟踪控制器相整合，以及如何使隐式接触 MPC 适应于动态任务的需求。

令人印象深刻的是，尽管众所周知，摩擦和刚性接触模型往往不准确，但这篇论文的方法能够对这些不准确性做出灵敏反应，同时快速完成任务。而且，研究者没有使用于常见的辅助工具，例如参考轨迹或运动基元辅助机器人完成任务，这进一步凸显了该方法的通用性。这是隐式接触 MPC 技术首次被应用于三维空间中的动态操作任务。

论文标题：Agile But Safe: Learning Collision-Free High-Speed Legged Locomotion

作者：Tairan He, Chong Zhang, Wenli Xiao, Guanqi He, Changliu Liu, Guanya Shi

机构：CMU、瑞士苏黎世联邦理工学院

论文链接：https://arxiv.org/pdf/2401.17583

四足机器人在杂乱的环境中穿行时，需要同时具备灵活性和安全性。它们需要既能够敏捷地完成任务，又要避免与人或障碍物相撞。不过，现有的研究往往只注重其中一方面：要么是为了安全而设计速度不超过 1.0 米 / 秒的保守控制器，要么是追求灵活性却忽视了可能致命的碰撞问题。

这篇论文提出了一种名为「既敏捷又安全」的控制框架。这个框架让四足机器人在保持灵活性的同时，也能安全地避开障碍物和人，实现无碰撞的行走。

ABS 包括两套策略：一套是教机器人如何在障碍物之间灵活敏捷地穿梭，另一套则是万一遇到问题，如何快速恢复，保证机器人不会摔倒或者撞到东西。两套策略互相配合。

在 ABS 系统中，策略的切换由一个基于学习型控制理论的避碰价值网络来控制。这个网络不仅决定了何时切换策略，还为恢复策略提供了一个目标函数，确保机器人在闭环控制系统中始终保持安全。通过这种方式，机器人能够在复杂环境中灵活应对各种情况。

为了训练这些策略和网络，研究者们在模拟环境中进行了大量训练，包括敏捷策略、避碰价值网络、恢复策略，以及外部感知表示网络等等。这些经过训练的模块可以直接应用到现实世界中，配合机器人自身的感知和计算能力，无论机器人是在室内还是受限的室外空间，无论是面对不会动的还是能动的障碍物，都能在 ABS 框架下快速、安全地行动。

想了解更多细节，可以参考此前机器之心对这篇论文的介绍。

论文标题：ScrewMimic: Bimanual Imitation from Human Videos with Screw Space Projection

作者：Arpit Bahety, Priyanka Mandikal, Ben Abbatematteo, Roberto Martín-Martín

机构：得克萨斯大学奥斯汀分校

论文链接：https://arxiv.org/pdf/2405.03666

如果要教一个机器人如何用两只手同时做某件事情，比如同时打开一个盒子，实际上很困难。因为机器人需要同时控制很多关节，还要确保两只手的动作协调一致。对于人类，人们会通过观察别人，学会新的动作，再自己尝试并不断改进。在这篇论文中，研究者参考人类学习的方法，让机器人也能通过看视频学习新技能，并且在实践中提高。

研究者们从心理学和生物力学的研究中得到灵感，他们把两只手的动作想象成一种特殊的链条，这种链条可以像螺丝一样旋转，称之为「螺旋动作」。基于此，他们开发了一个名为 ScrewMimic 的系统。这个系统可以帮助机器人更好地理解人类的演示，并通过自我监督来改进动作。通过实验，研究者们发现 ScrewMimic 系统能帮助机器人从一段视频中学习到复杂的双手操作技能，并在性能上超越了那些直接在原始动作空间中进行学习和改进的系统。

ScrewMimic 的方法示意图

最佳论文奖

论文标题：Advancing Humanoid Locomotion: Mastering Challenging Terrains with Denoising World Model Learning

作者：Xinyang Gu, Yen-Jen Wang, Xiang Zhu, Chengming Shi, Yanjiang Guo, Yichen Liu, Jianyu Chen

机构：北京星动纪元科技有限公司、清华大学

论文链接：https://enriquecoronadozu.github.io/rssproceedings2024/rss20/p058.pdf

当前技术只能让人形机器人在平坦地面，此类简单的地形上行走。然而，让它们在复杂环境，如真实的户外场景中自如行动，仍很困难。在这篇论文中，研究者们提出了一种名为去噪世界模型学习（DWL）的新方法。

DWL 是一个用于人形机器人的运动控制的端到端的强化学习框架。这一框架使机器人能够适应各种不平坦且具有挑战性的地形，例如雪地、斜坡和楼梯。值得一提的是，这些机器人仅需一次学习过程，无需额外的特别训练，便能在现实世界中自如应对多样化的地形挑战。

这项研究由北京星动纪元科技有限公司和清华大学联合完成。星动纪元成立于 2023 年，是一家由清华大学交叉信息研究院孵化，研发具身智能以及通用人形机器人技术和产品的科技公司，创始人为清华大学交叉信息研究院助理教授、博导陈建宇，聚焦于通用人工智能 (AGI) 前沿应用，致力于研发适应宽领域、多情景、高智能的通用人形机器人。

论文标题：Real-Time Anomaly Detection and Reactive Planning with Large Language Models

作者：Rohan Sinha, Amine Elhafsi, Christopher Agia, Matt Foutter, Edward Schmerling, Marco Pavone

机构：斯坦福大学

论文链接：https://arxiv.org/pdf/2407.08735

大型语言模型（LLM），具有零样本的泛化能力，这使得它们有希望成为检测和排除机器人系统分布外故障的技术。然而，想让大型语言模型真正发挥作用，需要解决两个难题：首先，LLM 需要很多计算资源才能在线应用；其次，需要让 LLM 的判断能够融入到机器人的安全控制系统中。

在这篇论文中，研究者提出了一个两阶段的推理框架：对于第一阶段，他们设计了一个快速的异常检测器，它能在 LLM 的理解空间里迅速分析对机器人的观察结果；如果发现问题，就会进入下一个备选选择阶段。在这个阶段，将采用 LLM 的推理能力，进行更深入的分析。

进入哪个阶段对应于模型预测控制策略中的分支点，这个策略能够同时跟踪并评估不同的备选计划，以解决慢速推理器的延迟问题。一旦系统检测到任何异常或问题，这个策略会立即启动，确保机器人的行动是安全的。

这篇论文中的快速异常分类器在性能上超越了使用最先进的 GPT 模型的自回归推理，即使在使用相对较小的语言模型时也是如此。这使得论文中提出的实时监控器能够在有限的资源和时间下，例如四旋翼无人机和无人驾驶汽车中，提高动态机器人的可靠性。

论文题目：Configuration Space Distance Fields for Manipulation Planning

作者：Yiming Li, Xuemin Chi, Amirreza Razmjoo, Sylvain Calinon

机构：瑞士 IDIAP 研究所、瑞士洛桑联邦理工学院、浙江大学

论文链接：https://arxiv.org/pdf/2406.01137

符号距离场（SDF）是机器人学中一种流行的隐式形状表示，它提供了关于物体和障碍物的几何信息，并且可以很容易地与控制、优化和学习技术结合起来。SDF 一般被用于表示任务空间中的距离，这与人类在 3D 世界中感知的距离概念相对应。

在机器人领域中，SDF 往往用来表示机器人每个关节的角度。研究者通常知道在机器人的关节角度空间中，哪些区域是安全的，也就是说，机器人的各个关节可以转动到这些区域而不会发生碰撞。但是，他们不经常用距离场的形式来表达这些安全区域。

在这篇论文中，研究者们提出了用 SDF 优化机器人配置空间的潜力，他们称之为配置空间距离场（简称为 CDF）。与使用 SDF 类似，CDF 提供了高效的关节角度距离查询和直接访问导数（关节角速度）。通常，机器人规划会分成两步：先在任务空间里看看动作离目标有多远，再用逆运动学算出关节怎么转。但 CDF 让这两步合成一步，直接在机器人的关节空间里解决问题，这样更简单，效率也更高。研究者在论文中提出了一种高效的算法来计算和融合 CDF，可以推广到任意场景。

他们还提出了一种使用多层感知器（MLPs）的相应神经 CDF 表示，用以获得紧凑且连续的表示，提高了计算效率。论文中提供了一些具体示例来展示 CDF 的效果，比如让机器人避开平面上的障碍物，一级让一个 7 轴的机器人 Franka 完成一些动作规划任务。这些示例都说明了 CDF 的有效性。

应用 CDF 方法的机械臂做抬盒子任务

早期职业 Spotlight

大会还评选出了早期职业 Spotlight 奖，本次获奖者为 Stefan Leutenegger，他的研究重点是机器人在潜在未知环境中的导航。

Stefan Leutenegger 是慕尼黑工业大学（TUM）计算、信息与技术学院（CIT）助理教授（终身教职），并与慕尼黑机器人与机器智能研究所（MIRMI）、慕尼黑数据科学研究所（MDSI）和慕尼黑机器学习中心（MCML）有所关联，曾是戴森机器人实验室的成员。他领导的智能机器人实验室（SRL）致力于感知、移动机器人、无人机和机器学习的交叉研究。此外，Stefan 还是伦敦帝国理工学院计算机系的客座讲师。

他参与创办了 SLAMcore 公司，这是一家以机器人和无人机的定位和绘图解决方案的商业化为目标的衍生公司。Stefan 获得了苏黎世联邦理工学院机械工程学士学位和硕士学位，并在 2014 年获得了博士学位，学位论文主题为《无人太阳能飞机：高效稳健自主运行的设计与算法》。

时间检验奖

RSS 时间考验奖授予至少十年前在 RSS 上发表的影响力最大的论文（也可能是其期刊版本）。影响力可以从三个方面理解：比如改变了人们对问题或机器人设计的思考方式，使新问题引起了社区的注意，或者是开创了机器人设计或问题解决的新方法。

通过这个奖项，RSS 希望促进对本领域长期发展的讨论。今年的时间检验奖颁给了 Ji Zhang 和 Sanjiv Singh 的研究《LOAM：激光雷达测距和实时测绘》。

论文链接：https://www.ri.cmu.edu/pub_files/2014/7/Ji_LidarMapping_RSS2014_v8.pdf

这篇十年前的论文提出了一种利用以 6-DOF 运动的双轴激光雷达的测距数据进行里程测量和绘图的实时方法。这个问题难以解决的原因是测距数据是在不同时间接收到的，而运动估计中的误差会导致所得到的点云的错误配准。相干的三维地图可以通过离线批处理方法建立，通常使用闭环来校正随时间的漂移。而本文方法无需高精度测距或惯性测量，即可实现低漂移和低计算复杂度。

获得这种性能水平的关键在于将复杂的同步定位和测绘问题分为两种算法，以同时优化大量变量。一种算法以高频率但低保真的方式进行测距，以估算激光雷达的速度；另一种算法以低一个数量级的频率运行，用于点云的精细匹配和注册。这两种算法的结合使该方法能够实时绘图。研究者通过大量实验以及 KITTI 测速基准进行了评估，结果表明该方法可以达到离线批量方法的 SOTA 精度水平。

更多大会及奖项信息，可参考官网内容：https://roboticsconference.org/

转载请联系本公众号获得授权

原标题：《在机器人顶会 RSS 2024 上，中国的人形机器人研究斩获最佳论文奖》

阅读原文

特别声明

本文为澎湃号作者或机构在澎湃新闻上传并发布，仅代表该作者或机构观点，不代表澎湃新闻的观点或立场，澎湃新闻仅提供信息发布平台。申请澎湃号请用电脑访问http://renzheng.thepaper.cn。

我要举报