下载客户端

登录

+1

人形机器人优雅漫步，强化学习新成果！独角兽Figure创始人：之前大家吐槽太猛

关注

2025-03-27 12:30

北京

来源：澎湃新闻·澎湃号·湃客

白交发自凹非寺

量子位 | 公众号 QbitAI

注意看，机器人像人一样从容地走出大门了！

甚至，还有一整支机器人队伍迎面走来。

人形机器人独角兽Figure，再次带来他们的新成果——利用强化学习实现自然人形行走。

跟之前版本的机器人相比，确实更像人了许多，而且步态更加轻盈，速度也更快。

网友们纷纷表示被惊艳到，甚至觉得像是太空行走。

有一说一，自从与OpenAI取消合作后，这成果输出确实又快又多。

机器人像人一样自然行走

此次推出的，是经过强化学习训练的端到端神经网络。

根据官方介绍，主要分成三个部分：

强化学习：强化学习利用模拟试验和错误，教Figure 02 人形机器人如何像人一样行走。

模拟训练：通过高保真物理模拟器学习如何像人类一样行走，结果只需几个小时就能模拟出多年的数据。

Sim-to-Real：通过将仿真中的域随机化与机器人上的高频扭矩反馈相结合，模拟训练无需额外调整即可直接转换为真实硬件。

具体来看。

首先，利用强化学习技术，在GPU加速物理仿真中对新的行走控制器进行了全面训练，并在几个小时内收集了数年的仿真演示数据。

在模拟器中，数以千计的Figure 02机器人被并行模拟，每个机器人都有独特的物理参数。

然后，这些机器人将暴露在它们可能遇到的各种场景中，并通过单一神经网络策略学习如何操作它们。这包括遇到各种地形、致动器动态变化以及对绊倒、滑倒和推搡的反应。

使用强化学习学习到的策略可能会趋近于次优控制策略，无法捕捉到人类行走的风格属性。这包括以类似人类的步态行走，脚跟着地、脚尖离开、手臂摆动与腿部运动同步。

于是他们通过奖励机器人模仿人类的行走参考轨迹，将这种偏好注入到学习框架。这些轨迹为策略允许产生的行走方式建立了先验，而额外的奖励条款则优化了速度跟踪、功耗以及对外部扰动和地形变化的鲁棒性。

最后一步是将策略从模拟中提取出来，应用到真正的仿人机器人中。仿真机器人充其量只是高维机电系统的近似值，在仿真中训练的策略只能保证在这些仿真机器人上有效。

为了弥补这一 “模拟到现实的差距”，他们在模拟中结合使用了域随机化和机器人上的kHz-速率扭矩反馈控制。

域随机化通过随机化每个机器人的物理属性，模拟策略可能需要运行的各种系统，从而弥合模拟与现实之间的差距。这有助于该策略在不进行任何额外微调的情况下，实现与物理机器人的 “零接触”。

用kHz速率闭环扭矩控制来运行策略输出，以补偿执行器建模中的误差。该策略对机器人与机器人之间的变化、表面摩擦力和外部推动力的变化都很稳健，在整个Figure 02 机器人群中实现了可重复的仿人行走。

于是乎，就看到了10个机器人同一步态行走，没有任何调整或变化。

接下来，他们计划将这一技术扩展到数千个 Figure 机器人。

人形机器人越来越像人了

之所以这次选择对机器人步态的改善，Figure创始人也说了，这并非是他们的首要任务，只是之前网友吐槽得多了，他们最终目标是商业运送机器人。

By the way，今年伊始海内外的人形机器人都密集亮相，诸多大厂企业开始投身机器人的布局当中，这不今天同一天，vivo宣布成立机器人Lab。

在这些机器人持续整活之中，能够看到他们举手投足之间着实越来越像人了。

且不说跟大爷一样在公园遛弯、跑步、二人转之类。

还学会了人类的一些空翻、托马斯全旋等等杂技。

你还期待人形机器人哪些地方可以像人的？

欢迎在评论区留下你的想法！

— 完 —

特别声明

本文为澎湃号作者或机构在澎湃新闻上传并发布，仅代表该作者或机构观点，不代表澎湃新闻的观点或立场，澎湃新闻仅提供信息发布平台。申请澎湃号请用电脑访问http://renzheng.thepaper.cn。

+1

0

收藏

相关推荐

机器人天团亮相博鳌！煎饼机器人3分钟出餐，熊猫机器人向你比了个心

履新后首次调研，浙大校长走进机器人与智能装备创新实践基地

一个400亿独角兽23andMe破产了

评论（0）

已经到底了

查看更多

扫码下载澎湃新闻客户端

澎湃矩阵

新闻报料

报料热线: 021-962866
报料邮箱: news@thepaper.cn

沪ICP备14003370号

沪公网安备31010602000299号

互联网新闻信息服务许可证：31120170006

增值电信业务经营许可证：沪B2-2017116

© 2014-2025 上海东方报业有限公司

反馈