侵权投诉
焊接机器人 喷涂机器人 搬运机器人 装配机器人 切割机器人 其它机器人
订阅
纠错
加入自媒体

如何实现模拟人类视觉注意力的循环神经网络?

2017-06-19 08:49
一分日元
关注

公式(1)也叫做增强学习的规则,它包括运用当前的策略运行agent去获得交互序列,然后根据可以增大奖励信号的行为调整theta。它的训练过程就是用增强学习的方法学习具体任务策略。关于给定任务,根据模型做出的一系列决定给出表现评价,最大化表现评价,对其进行端到端的优化。

首先为什么要用增强学习呢?因为数据的状态不是非常明确的,不是可以直接监督或者非监督来训练的,比如机器人的控制很难完全精确。

那么什么是增强学习呢?

如何实现模拟人类视觉注意力的循环神经网络?

增强学习关注的是智能体如何在环境中采取一系列行为,从而获得最大的累积回报。RL是从环境状态到动作的映射的学习,我们把这个映射称为策略。通过增强学习,一个智能体(agent)应该知道在什么状态下应该采取什么行为。

假设一个智能体处于下图(a)中所示的4x3的环境中。从初始状态开始,它需要每个时间选择一个行为(上、下、左、右)。在智能体到达标有+1或-1的目标状态时与环境的交互终止。如果环境是确定的,很容易得到一个解:[上,上,右,右,右]。可惜智能体的行动不是可靠的(类似现实中对机器人的控制不可能完全精确),环境不一定沿这个解发展。下图(b)是一个环境转移模型的示意,每一步行动以0.8的概率达到预期,0.2的概率会垂直于运动方向移动,撞到(a)图中黑色模块后会无法移动。两个终止状态分别有+1和-1的回报,其他状态有-0.4的回报。现在智能体要解决的是通过增强学习(不断的试错、反馈、学习)找到最优的策略(得到最大的回报)。

上述问题可以看作为一个马尔科夫决策过程,最终的目标是通过一步步决策使整体的回报函数期望最优。

<上一页  1  2  3  4  5  下一页>  
声明: 本文由入驻维科号的作者撰写,观点仅代表作者本人,不代表OFweek立场。如有侵权或其他问题,请联系举报。

发表评论

0条评论,0人参与

请输入评论内容...

请输入评论/评论长度6~500个字

您提交的评论过于频繁,请输入验证码继续

暂无评论

暂无评论

文章纠错
x
*文字标题:
*纠错内容:
联系邮箱:
*验 证 码:

粤公网安备 44030502002758号