侵权投诉
焊接机器人 喷涂机器人 搬运机器人 装配机器人 切割机器人 其它机器人
订阅
纠错
加入自媒体

OpenAI:当AlphaGo用于机器人领域是否战无不胜?

2017-06-03 08:48
水墨黯月
关注

;这几日,只要提起AlphaGo,相信大家想起的一定是在前几日的围棋大赛中,无论是单人战,双人战,还是群殴战,AlphaGo都无一例外的身居“常胜将军”位,而AlphaGo的创作团队公司Deep mind在官网宣布这次的围棋峰会将是AlphaGo的最后一次比赛。那么,不进行围棋赛的AlphaGo还可以做什么呢?OpenAI研究科学家,斯坦福大学的CS博士生Andrej Karpathy就AlphaGo在机器人领域的应用发表了一些他的看法,机器人圈整理编译如下:

我有机会和几个人聊了一聊近期与AlphaGo柯洁等人的比赛。尤其是,媒体报道内容大部分是大众科学+PR的混合体,所以我看到的最常见的问题是“AlphaGo的突破性表现在哪里”,“AI的研究人员如何看待它的胜利?”和“胜利将取得什么样的影响”。我把我的一些想法写成文章与大家分享。

很酷的部分

AlphaGo由许多相对标准的技术组成:行为克隆(对人类展示的数据进行监督学习)、强化学习(REINFORCE)、价值函数和蒙特卡洛树搜索(MCTS)。然而,这些组件的组合方式是极具创新,并不是完全标准的。特别是,AlphaGo使用SL(监督学习)策略来初始化RL(强化学习)策略得到完善自我发挥,然后他们预估价值函数,然后将其插入到MCTS中使用(更糟糕但更多样化的)SL策略展示出来。另外,策略/价值网是深度神经网络,所以使一切正常工作都能呈现自己独特的挑战(例如,价值功能以一种棘手的方式进行培训以防止过度拟合)。在所有这些方面,DeepMind都执行得很好。话虽如此,AlphaGo本身并没有使用任何基本的算法突破来解决强化学习的难题。

狭义范畴

AlphaGo还是一个狭义的AI系统,会下围棋,但也仅此而已。来自DeepMind的ATARI玩家不会使用AlphaGo所采取的方法,神经图灵机(Neural Turing Machines)与AlphaGo无关,Google数据中心的改进也绝对不会使用AlphaGo,同时,Google搜索引擎也不会使用AlphaGo。因此,AlphaGo不会推广到围棋以外的任何地方,但是人们和潜在的神经网络组件做的比这些过去的人工智能要好得多,每个演示都需要专门的显式代码的存储库。

围棋的便利属性

我想通过明确地列出围棋所具有的特定属性来扩展AlphaGo的狭义性,AlphaGo从中受益匪浅。这可以帮助我们考虑是否推广AlphaGo。围棋是:

1、完全确定性。游戏规则中没有噪音;如果两位玩家采取相同的动作顺序,那么后面的状态将永远是一样的。

2、充分观察。每个玩家都有完整的信息,没有隐藏的变量。例如,德州扑克(Texas hold’em)对该属性不满意,因为看不到其他玩家的牌。

3、动作空间是离散的。一些独特的棋子移动是很有效的。相比之下,在机器人技术中,你可能希望在每个节点都需要具有连续性的控制。

4、我们有一个完美的模拟器(游戏本身),所以任何动作的效果都是公开透明的。这是一个强有力的假设,AlphaGo依然非常强大,但这种情形在现实世界中也是相当罕见的。

5、每一盘棋时间相对较短,约200手。相对于强化学习阶段,与其他可能涉及每局的数千(或更多)手相比,这是一个相对较短的时间范围。

6、评估清晰、快速,允许大量的试错体验。换句话说,玩家可以体验数百万次的胜利/失败,这样就可以慢慢而可靠地深入学习,就像深度神经网络优化一样。

7、有大量的人类玩游戏棋谱数据可用于引导学习,所以AlphaGo不必从头开始。

1  2  下一页>  
声明: 本文由入驻维科号的作者撰写,观点仅代表作者本人,不代表OFweek立场。如有侵权或其他问题,请联系举报。

发表评论

0条评论,0人参与

请输入评论内容...

请输入评论/评论长度6~500个字

您提交的评论过于频繁,请输入验证码继续

暂无评论

暂无评论

文章纠错
x
*文字标题:
*纠错内容:
联系邮箱:
*验 证 码:

粤公网安备 44030502002758号