- +1
人形机器人优雅漫步,强化学习新成果!独角兽Figure创始人:之前大家吐槽太猛
白交 发自 凹非寺
量子位 | 公众号 QbitAI
注意看,机器人像人一样从容地走出大门了!

甚至,还有一整支机器人队伍迎面走来。

人形机器人独角兽Figure,再次带来他们的新成果——利用强化学习实现自然人形行走。
跟之前版本的机器人相比,确实更像人了许多,而且步态更加轻盈,速度也更快。

网友们纷纷表示被惊艳到,甚至觉得像是太空行走。

有一说一,自从与OpenAI取消合作后,这成果输出确实又快又多。

机器人像人一样自然行走
此次推出的,是经过强化学习训练的端到端神经网络。
根据官方介绍,主要分成三个部分:
强化学习:强化学习利用模拟试验和错误,教Figure 02 人形机器人如何像人一样行走。
模拟训练:通过高保真物理模拟器学习如何像人类一样行走,结果只需几个小时就能模拟出多年的数据。
Sim-to-Real:通过将仿真中的域随机化与机器人上的高频扭矩反馈相结合,模拟训练无需额外调整即可直接转换为真实硬件。

具体来看。
首先,利用强化学习技术,在GPU加速物理仿真中对新的行走控制器进行了全面训练,并在几个小时内收集了数年的仿真演示数据。
在模拟器中,数以千计的Figure 02机器人被并行模拟,每个机器人都有独特的物理参数。
然后,这些机器人将暴露在它们可能遇到的各种场景中,并通过单一神经网络策略学习如何操作它们。这包括遇到各种地形、致动器动态变化以及对绊倒、滑倒和推搡的反应。

使用强化学习学习到的策略可能会趋近于次优控制策略,无法捕捉到人类行走的风格属性。这包括以类似人类的步态行走,脚跟着地、脚尖离开、手臂摆动与腿部运动同步。
于是他们通过奖励机器人模仿人类的行走参考轨迹,将这种偏好注入到学习框架。这些轨迹为策略允许产生的行走方式建立了先验,而额外的奖励条款则优化了速度跟踪、功耗以及对外部扰动和地形变化的鲁棒性。
最后一步是将策略从模拟中提取出来,应用到真正的仿人机器人中。仿真机器人充其量只是高维机电系统的近似值,在仿真中训练的策略只能保证在这些仿真机器人上有效。
为了弥补这一 “模拟到现实的差距”,他们在模拟中结合使用了域随机化和机器人上的kHz-速率扭矩反馈控制。
域随机化通过随机化每个机器人的物理属性,模拟策略可能需要运行的各种系统,从而弥合模拟与现实之间的差距。这有助于该策略在不进行任何额外微调的情况下,实现与物理机器人的 “零接触”。
用kHz速率闭环扭矩控制来运行策略输出,以补偿执行器建模中的误差。该策略对机器人与机器人之间的变化、表面摩擦力和外部推动力的变化都很稳健,在整个Figure 02 机器人群中实现了可重复的仿人行走。

于是乎,就看到了10个机器人同一步态行走,没有任何调整或变化。
接下来,他们计划将这一技术扩展到数千个 Figure 机器人。
人形机器人越来越像人了
之所以这次选择对机器人步态的改善,Figure创始人也说了,这并非是他们的首要任务,只是之前网友吐槽得多了,他们最终目标是商业运送机器人。

By the way,今年伊始海内外的人形机器人都密集亮相,诸多大厂企业开始投身机器人的布局当中,这不今天同一天,vivo宣布成立机器人Lab。
在这些机器人持续整活之中,能够看到他们举手投足之间着实越来越像人了。
且不说跟大爷一样在公园遛弯、跑步、二人转之类。

还学会了人类的一些空翻、托马斯全旋等等杂技。


你还期待人形机器人哪些地方可以像人的?
欢迎在评论区留下你的想法!
— 完 —
本文为澎湃号作者或机构在澎湃新闻上传并发布,仅代表该作者或机构观点,不代表澎湃新闻的观点或立场,澎湃新闻仅提供信息发布平台。申请澎湃号请用电脑访问http://renzheng.thepaper.cn。





- 报料热线: 021-962866
- 报料邮箱: news@thepaper.cn
互联网新闻信息服务许可证:31120170006
增值电信业务经营许可证:沪B2-2017116
© 2014-2025 上海东方报业有限公司