西安工程机械网

当前位置:主页 >> 环卫机械

专注于可以从失败中学习的强化学习算法

发布时间:2021年08月18日    点击:[0]人次

专注于可以从失败中学习的强化学习算法

来自OpenAI人士的最新消息都与奖金三重奏有关。他们说,他们正在发布新的Gym环境-一组基于真实机器人平台的模拟机器人环境-包括Shadow手和Fetch研究机器人,IEEE Spectrum表示。

除了该工具包外,他们还将发布Hindsight Experience Replay(HER)的开源版本中国机械网okmao.com。顾名思义,它可以帮助机器人从事后学习中学习基于目标的机器人任务。

最后但并非最不重要的一点是,他们发布了一系列机器人研究请求。IEEE Spectrum的Evan Ackerman表示:“如果您有野心,OpenAI也发布了一系列与HER相关的研究要求。”

他们写道:“尽管HER是一种学习稀疏奖励的,基于复杂目标目标任务的有前途的方式,但我们仍有很多改进的空间,” “类似于我们最近发布的“研究请求2.0”,我们对改善HER的方法以及总体上加强学习的方法有一些想法。”

OpenAI是一家AI研究公司。他们在机器学习会议上发表文章,他们的博客文章传达了他们的研究成果。

Elon Musk是联合创始人。它是由个人和公司赞助的,旨在发现并制定“通往安全的人工智能的道路”。

2月26日发布了OpenAI视频,展示了他们在“健身房环境”部分所取得的成就。

它们显示了完成的不同任务。ShadowHand机器人会操纵一个对象(显示出要进行操作的手,包括弯曲手指,儿童的字母块,蛋形对象以及使手指穿过小棍子)。他们还介绍了一种机器人“轻推”机器人机构,该机构可以使冰球滑动并抓住小球并将其抬起

具体来说,这些是所显示的各种壮举:ShadowHand必须用拇指和选定的手指伸出,直到它们在手掌上方的所需目标位置相遇。

ShadowHand必须操纵一个块,直到达到所需的目标位置和旋转。ShadowHand必须操纵鸡蛋,直到达到所需的目标位置和旋转。ShadowHand必须操纵笔,直到达到所需的目标位置和旋转。

总而言之,“最新环境模拟了Fetch机械臂来推动东西,而ShadowShadow用机械手手指来抓握和操纵东西,” The Register中的Katyanna Quach说。

OpenAI HER产品特别有趣。培训和强化需要重新思考。HER允许代理从失败中学习。正如阿克曼(Ackerman)所写,HER“将失败重塑为成功,以帮助机器人像人类一样学习更多”。

麻省理工学院技术评论杂志的杰基·斯诺(Jackie Snow)指出:“通过查看如何将一项任务的每次尝试应用于其他任务,可以做到这一点。”

Snow补充道:“ HER不会因正确完成任务而给予机器人任何奖励,只有在整个工作正确完成的情况下,机器人才会给予奖励。”

将失败归为成功?Ackerman提供了以下解释:“要了解HER的工作原理,请想象您要打一场棒球比赛。您的目标是打垒球。在第一个球场上,您打了一个犯规的球。

您还准确地学会了如何打犯规球...通过回放后视经验,您决定从无论如何做的事情中学习,本质上是说:'您知道,如果我想打犯规球,那就太完美了!'”

HER的实施效果如何?“我们的结果表明,HER只能从稀疏的奖励中学习到有关大多数新机器人问题的成功策略。”

玩眼罩游戏的孩子经常告诉玩家:“你变得越来越温暖。” 赞赏他们的研究的关键词是稀疏和密集的奖励。

“大多数强化学习算法都使用'密集奖励',” Ackerman解释说,“其中机器人根据完成任务的接近程度来获取不同大小的cookie……稀疏奖励意味着,只有成功,机器人才能获得一个cookie。 ,就是这样:易于测量,易于编程和易于实现。”