什么是强化学习？强化学习可以解决什么问题？

2021-05-28 09:58

近年来，无人机已被广泛应用于很多领域，它不仅可以完成很多的任务，包括轨迹规划、避障、巡航等，在民用、军事都有很广泛应用，而且还有降低成本、提高效率、减少损失等很多作用。

但是传统的无人机任务都采用飞控控制，需要人为操作。为了使无人机可以具备更广的适用性，或者从技术上来说拥有更好的泛化能力，深兰科学院尝试用强化学习来训练无人机做指定的任务。如果训练效果能够达到足够稳定的性能，则可以进一步实现商用目的。本文在此基础上，带大家简单了解一下强化学习的基础知识。

强化学习小课堂

什么是强化学习？

1、强化学习

强化学习（Reinforcement Learning RL）也有很多其他名字，例如再励学习、增强学习、评价学习，是机器学习的范式和方法论之一，用于描述和解决智能体在与环境的交互过程中，通过学习策略以达成回报最大化或实现特定目标的问题。

上图为经典的强化学习结构图，从图片中可以看出，强化学习过程主要由4部分构成：智能体（agent）、观测到的状态（observation／state）、奖励（reward）和行为（action）。

一个强化学习的过程中，智能体获得从当前环境中观测到的状态，然后根据这一状态采取一定的行为或策略，同时，有一个评价系统来评价这个行为的好坏，并返回正／负奖励给到智能体。循环往复，直到完成整个任务，此为一次强化学习的交互。整个强化学习训练过程就是，智能体与环境不断的交互，最终会学习到合理的策略，让奖励最大或者达到某个任务（指定的状态）。

强化学习受行为主义心理学的启发，例如巴甫洛夫条件反射实验，训练摇铃小狗流口水。小狗看到吃的流口水、摇铃不流口水，实验中就采取摇铃并给狗喂狗粮的方法不停训练，最终即使在没有狗粮，只摇铃的情况下，小狗也会流口水。

强化学习与此类似，是让智能体在与环境交互的过程中，一旦选择对的行为则给予正奖励加强这种行为，在不断的训练过程中使得智能体选择最合适的行为，最终使得智能体的每一步都能选择合理的行为，从而达到整体任务奖励最大化，并完成任务。

2、深度强化学习

我们一般所说的强化学习其实是深度强化学习（Deep Reinforcement Learning DRL），深度强化学习是强化学习与深度学习结合的结果。顾名思义，就是将传统强化学习中的某一部分用深度学习来完成。

传统强化学习中的行为以及价值都是需要人为定义的，这也就是为什么传统强化学习起源较早，但是应用并不广泛的原因之一。而深度学习恰好将这一问题解决了，强化学习中的行为以及价值都用一个深度学习的网络来学习得到，这样不需要人为设定，使得强化学习可以广泛应用于很多领域。而传统强化学习无法解决的连续性动作的问题，深度强化学习也可以解决，使用对应的Actor－critic网络即可。

深度强化学习的分类，有很多种分类标准。

从智能体的个数上，可分为单智能体算法和多智能体算法；

从是否基于模型的角度，可分为model－based和model－free；

从训练时策略的选择，可分为on－policy和off－policy等等。

这里不一一展开，但在实际运用强化学习的时候，根据具体的任务或者项目，需要选择合适的深度强化学习算法。

1 2 下一页>