电话咨询 在线咨询 产品定制
电话咨询 在线咨询 产品定制
010-68321050

人工智能算法通过强化学习让机器人熟悉路形

五度易链 2019-01-03 2602 90

专属客服号

微信订阅号

大数据治理

全面提升数据价值

赋能业务提质增效

我们可以在研究人员视频资料中看到,四足机器人在走一个缓坡。在视频开头的四足机器人Minitaur走路还不够稳定,有时候在摇晃,有时候停止不前,整个过程都走的十分缓慢。而在四足机器人进行Minitaur学习的18分钟时,四足机器人可以进行稳步前进了,随着后期的学习时间增加,机器人走路的稳定性也在不断提高,时间增加到快两个小时时,机器人已经能完成平稳的走过缓坡。

【产业链图谱 | 人工智能产业链图谱_人工智能产业链全景图】

【研究报告 | 人工智能行业研究报告】

    2018年12月,来自谷歌大脑的科学家们进行了人工智能系统研发。此次研发能够让机器人学会自行走路。

  我们可以在研究人员视频资料中看到,四足机器人在走一个缓坡。在视频开头的四足机器人Minitaur走路还不够稳定,有时候在摇晃,有时候停止不前,整个过程都走的十分缓慢。而在四足机器人进行Minitaur学习的18分钟时,四足机器人可以进行稳步前进了,随着后期的学习时间增加,机器人走路的稳定性也在不断提高,时间增加到快两个小时时,机器人已经能完成平稳的走过缓坡。

  通过观察机器人的学习视频,我们可以看到学习对机器人完成自我行走的作用。同时,这项人工智能算大能够教会机器人走熟悉的地形。

  强化学习的核心是一个概念,即最佳的行为或行动是由积极的回报来强化的。机器和软件代理使用强化学习算法,通过以环境的反馈为基础来确定理想行为,这是机器学习的一种形式,也是人工智能的一个分支。

  根据问题的复杂性,强化学习算法可以在必要时随时间保持适应环境,以便长期获得最大的回报。一个通过强化学习来学会行走的机器人将通过尝试不同的方法实现目标,获得有关这些方式成功的反馈,然后进行调整直到达到行走的目标。大步伐会让机器人摔倒,通过调整步距来判断这是否是保持直立的原因,通过不同的变化持续学习,最终能够行走。以上说明,奖励是保持直立,惩罚就是摔倒,机器人基于对其动作的反馈信息进而优化并强化。强化学习需要大量的数据,这就是为什么这项技术的第一个应用领域是模拟数据,如游戏和机器人。

  尽管处于强化学习的早期阶段,但仍有一些应用和产品开始依赖这种技术。公司开始使用强化学习解决连续性决策问题,同时强化学习支持专家决策或自动化决策处理。

  但强化学习也有其局限性。它需要大量数据,在某些情况下需要数万个样本才能获得良好的结果。这就需要四足机器人Minitaur像阿尔法狗那样进行多次训练,但过多的训练可能会对四足机器人造成损坏。

  但是此次的训练也存在不足,即机器人在完成一次行走路径后,需要手动将机器人放回原点。这个过程有些繁琐。但是只需两个小时完成机器人的学习,也被称赞为“AI是个好老师”。


本文由五度数科整理,转载请标明出处,违者必究!

评论

产业专题

申请产品定制

请完善以下信息,我们的顾问会在1个工作日内与您联系,为您安排产品定制服务

  • *姓名

  • *手机号

  • *验证码

    获取验证码
    获取验证码
  • *您的邮箱

  • *政府/园区/机构/企业名称

  • 您的职务

  • 备注