澎湃Logo
下载客户端

登录

  • +1

从观察、思考到行动,深度强化学习大牛Pieter Abbeel谈如何驯服机器人

2023-10-04 16:36
来源:澎湃新闻·澎湃号·湃客
字号

机器之心报道

编辑:大盘鸡

这样学,还能那样学。

人类的大脑具有学习新事物的能力,而且学习方式多种多样,从模仿他人到观看在线解说视频,不一而足。如果机器人也能这样做呢?2021 年 ACM 计算奖获得者 Pieter Abbeel 的职业生涯一直在研究这个问题。

Pieter Abbeel 是 Covariant 的创始人之一。Covariant 是一家人工智能机器人公司,致力于构建一个通用的人工智能,使机器人能够在现实世界中学习和操作,以协助人类完成繁重和劳累的任务,尤其是在仓储和物流行业中。

Covariant 的创始人陈曦、Pieter Abbeel、段岩、张天浩(从左到右)

通过与仓储公司的合作,Covariant 的核心技术「Covariant Brain」能够接触到大量现实生活中物体,从数百万次的拾取任务中学习。Covariant Brain 能够使机器人看、思考并行动。在学习过程中不仅学习既有动作,还通过学会如何学习(元学习)来抓取任何不熟悉的物品,无论形状、大小或包装如何。

最近,ACM 邀请到 Pieter Abbeel,聊一聊有关他的工作,以及那些他为更轻松「教」机器人学习而开发的技术。以下为机器之心对本次访谈进行了不改变原意的编译与整理。

ACM:让我们从深度强化学习和你开发的名为 「信赖域策略优化 」的方法开始。这种方法是如何工作的,你又是如何开发出来的?

Pieter Abbeel:过去,要把机器人放在某个地方,比如汽车厂或电子厂。这时你需要把机器人周围的环境布置好,让一切以完全相同的方式重复一遍又一遍。然后,用某种固定的动作序列对机器人进行编程,这样就能完成任务了。这对于结构化的环境非常有效,但当在可预测性稍差的环境中,我们就无能为力了。

我一直认为,当机器人能够适应不同环境时,就会发生重大变革。而要做到这一点,就意味着机器人必须具备学习能力。

ACM:那么如何让机器人学习呢?

Pieter Abbeel:这是我取得博士学位之后一直在研究的问题。从根本上说,主要有两种方法,它们相辅相成:一种是模仿学习或学徒学习,另一种是强化学习。

在模仿学习中,你告诉机器人该做什么,机器人就会从你的例子中学会做这件事。这很好,因为当你想让机器人做某件事时,你通常较为准确地知道需要它做些什么。但挑战在于,你需要给机器人提供大量的示例,这样它才能在面对新场景时进行归纳总结,并完成任务。这可能会变得非常耗时,并且一旦环境发生变化,总会有一些内容超出你所给出例子的范围。

ACM:强化学习是什么?

Pieter Abbeel:强化学习是关于试错的。在这种方法中,不需要向机器人展示该做什么,机器人只是不断尝试,然后系统会告诉它是否成功。因此原则上,你需要先通过模仿学习向机器人展示该做什么,然后让机器人不断试错,从而学习。

ACM:2012 年,ACM 图灵奖获得者 Geoff Hinton 证明,只要有足够的视觉数据,深度神经网络在训练后就能表现出前所未有的模式识别能力。我想这启发了你,使你的强化学习框架中的模式识别功能更加强大。

Pieter Abbeel:在强化学习中,机器人会自己做一些事情,但它仍然需要识别好的运行模式与差的运行模式有何不同。我和我的学生 John Schulman 开始尝试使用深度神经网络,看看能否改进强化学习算法中的模式识别器。但事实证明,强化学习算法比标准的监督学习要脆弱得多。在监督学习中,有一个输入,输出是一个标签,你只需要识别模式。而在强化学习中,机器人需要在从未运行过的情况下学会运行。在这过程中,信号不多,噪音很大。

ACM:因此,你尝试既要提高模式识别,又要让算法更加稳定。

Pieter Abbeel:我们需要能够保证机器人在持续改进。如果机器人观察最近的经验,它将更新模式识别器。而模式识别器是一种神经网络策略,用于接收当前的传感器输入并生成电机指令。我们知道,如果能想出一种方法让机器人在每一步都能持续改进,那么就有了利用这些庞大神经网络进行强化学习的真正基础。

ACM:这就是信赖域策略优化的作用所在了。

Pieter Abbeel:在传统强化学习中,我们会进行一系列试验,然后计算梯度,找出进步最大的方向。信赖域策略优化定义了一个信赖区域:一个我们知道可以信赖梯度的区域。梯度是 landscape 的一阶线性近似值。我们知道 landscape 不是线性的,但在局部它能够以这种方式近似为线性。因此,我和 John Schulman 想出了一种方法,来量化可以信赖这种线性近似的区域。接下来,我们只需在该区域内迈出一步,就能保证改进效果。

ACM:重复这样做,你就为强化训练打下了值得信赖的基础。

Pieter Abbeel:没错!我们在 YouTube 上有一段视频 ,你可以在视频中看到整个过程。机器人只是不断尝试,不断摔倒,但随着时间的推移,它真的开始运行了。学习的妙处在于,一旦你有了学习算法,你就不需要重新编程,只需再次运行学习算法,它就能学会在新情况下需要什么。

视频来源:https://bit.ly/3nZrQhs

ACM:你创立的公司 Covariant 正试图通过制造一个通用的机器人大脑来商业化这个想法。

Pieter Abbeel:我们的目标是提出一种方法,使机器人能够在学习什么以及如何学习方面通用。当然,机器人不能通过学习过操作堆乐高积木然后学会飞行,堆积木并不是学习飞行的正确数据集,但是代码可以是相同的。就像人类学习如何骑自行车或驾驶汽车,在人脑中,思路都是一样的。

ACM:Covariant 也在为商业应用构建机器人,特别是仓储取放机器人。

Pieter Abbeel:我们可以赋予机器人超越预先编程的固定动作序列的新技能,即使它们不是完全通用的。从我们的学术研究中我们知道这是可能的,我们开始考虑创建 Covariant。我们想到,机器人现在应该具备有用性。另外,我们的产品开发是数据驱动的,如果想要收集大量的数据,则需要制造出真正能激发人们购买需要的机器人。

ACM:当你在 2017 年创建 Covariant 时,自动驾驶汽车获得了大量的资金。是什么吸引了投入仓储取放机器人?

Pieter Abbeel:我们希望找到一个领域,它不需要实时干预,而是在极少数情况下才需要人工支持。实时人工干预很昂贵,无法体现机器人做事的价值。使用机器人操作,你仍然需要非常高的精度,但一旦机器人没有像预期的那样运行,就会有人介入并进行快速修复。

我们研究了许多不同的公司、行业和应用,最后我们把目光集中在仓储上,因为它似乎是一个自然而然的起点,原因有二。首先,取放是机器人几乎所有操作的基础。第二,这是一个快速发展的行业,真正需要自动化来支持我们所有的在线传送。在拾取和放置过程中没有自动化,这种非常重复的工作是对人类来说是很伤脑筋的。

ACM:你还与人共同教授一门关于 AI 业务的课程。你从向非专业人士教授 AI 中发现了什么?

Pieter Abbeel:我决定教授这门课程的原因之一是,我认为对 AI 的基本了解对做出商业决策很重要。许多公司将以某种方式使用 AI 人工智能,无论是在内部开发还是购买某种服务。商业专业的学生必须能够理解今天可能发生的事情,以及在不久的将来可能发生的事情,以及如何评估不同的系统。

这很有趣,因为对于从未真正研究过 AI 的人来说,这有点像解释一个魔术。就其核心而言,AI 是很好解释的。如果你想把它推向下一个技术前沿,你需要大量的训练,但理解基本概念并不需要多年的学习。

原文链接:https://cacm.acm.org/magazines/2023/9/275705-how-many-ways-can-you-teach-a-robot/fulltext

参考链接:

https://redian.news/wxnews/436445© THE END

转载请联系本公众号获得授权

投稿或寻求报道:content@jiqizhixin.com

原标题:《从观察、思考到行动,深度强化学习大牛Pieter Abbeel谈如何驯服机器人》

阅读原文

    本文为澎湃号作者或机构在澎湃新闻上传并发布,仅代表该作者或机构观点,不代表澎湃新闻的观点或立场,澎湃新闻仅提供信息发布平台。申请澎湃号请用电脑访问http://renzheng.thepaper.cn。

    +1
    收藏
    我要举报
            查看更多

            扫码下载澎湃新闻客户端

            沪ICP备14003370号

            沪公网安备31010602000299号

            互联网新闻信息服务许可证:31120170006

            增值电信业务经营许可证:沪B2-2017116

            © 2014-2024 上海东方报业有限公司

            反馈