侵权投诉
焊接机器人 喷涂机器人 搬运机器人 装配机器人 切割机器人 其它机器人
订阅
纠错
加入自媒体

什么是强化学习?强化学习可以解决什么问题?

2021-05-28 09:58
AI世界
关注


强化学习可以解决什么问题?

这张图是2016年引起热议人工智能的AlphaGo事件,AlphaGo打败了围棋世界冠军李世石。AlphaGo作为一个智能体,就使用了深度强化学习技术进行了训练。在这一场景中,状态就是每一时刻的棋盘,行为就是下棋的动作,而评价系统会根据每一步棋的价值返回奖励。完成训练的AlphaGo在与李世石的比赛中,根据当前的棋盘选择最优的行为“下一步棋”,最终击败了李世石,这就是强化学习的一个具体应用。

智能体在不断与环境交互的过程中,会保留上次学习过的经验,下一轮与环境交互时,会选择奖励更大的行为,一般用来解决“智能体与环境交互时通过决策选择最好的行为”的这一类问题。

具体到现在的应用场景很广泛:

工业应用:机器人作业;

金融贸易应用:预测未来销售额、预测股价等;

自然语言处理(NLP)应用:文本摘要、自动问答、机器翻译等;

医疗保健应用:提供治疗策略;

工程中的应用:数据处理、模型训练;

推荐系统中的应用:新闻推荐、时尚推荐等;

游戏中的应用:AlphaGo、AlphaZero等;

广告营销中的应用:实时竞价策略;

机器人控制中的应用:机械臂抓取物体等。

强化学习在无人机项目中的应用

强化学习在无人机项目中的应用越来越广泛,以下简单介绍下深兰科学院目前对该项目的研究内容:简单的轨迹规划,以及当前主流的两个研究方向:轨迹规划、运输悬挂。后续团队的目标也是基于当前项目,进行这两个主流方向的研究。

1、简单轨迹规划

本项目研究的是无人机圆周轨迹运动规划。在这一简单任务中,需要让无人机飞到指定位置悬停,然后一直做圆周运动。简单分析这一任务,智能体就是无人机,行为就是对无人机的旋翼发出操作指令,状态就是当前无人机所处的位置以及无人机的性能,奖励则是根据无人机是否沿着圆周运动的轨迹判断。

具体到深度强化学习的框架,采用的是on-policy的PPO框架,之后也会用off-policy的DDPG、SAC框架进行比对效果。

2、复杂轨迹规划

在许多机器人任务中,如无人机比赛,其目标是尽可能快地穿越一组路径点。这项任务的一个关键挑战是规划最小时间轨迹,这通常通过假设路径点的完美知识来解决。这样所得到的解决方案要么高度专用于单轨道布局,要么由于简化平台动力学假设而次优,方案不具有可扩展性。

视频是使用深度强化学习和相对门观察的方法,自适应地进行随机轨道布局的效果展示,与传统的假设路径点轨道方法相比,基于轨迹优化的方法显示出了显著的优势。在仿真环境和现实世界中的一组轨道上进行了评估,使用真实四旋翼无人机实现了高达17米/秒的飞行速度。

3、悬挂运输

第二个主流方向是悬挂运输,运输悬挂的有效载荷对自动驾驶飞行器来说是一个挑战,因为有效载荷会对机器人的动力学造成重大和不可预测的变化。这些变化可能会导致飞行性能不理想,甚至会导致灾难性故障。视频是运用自适应控制与深度强化学习在这一问题上的效果展示,可以看出这种方法在此任务表现良好。

<上一页  1  2  
声明: 本文由入驻维科号的作者撰写,观点仅代表作者本人,不代表OFweek立场。如有侵权或其他问题,请联系举报。

发表评论

0条评论,0人参与

请输入评论内容...

请输入评论/评论长度6~500个字

您提交的评论过于频繁,请输入验证码继续

暂无评论

暂无评论

    机器人 猎头职位 更多
    文章纠错
    x
    *文字标题:
    *纠错内容:
    联系邮箱:
    *验 证 码:

    粤公网安备 44030502002758号